Data architectuur opstellen. Hoe lever je waarde als architect?

In deze blogserie bespreekt specialist Bert Dingemans de rol van de Architect binnen big data en data analytics trajecten. In deel 1 besprak hij onder andere de rol van de traditionele architect, de achterliggende architectuurprincipes en het ondersteunen van het ontwikkelteam. In deel 2 de nieuwe rolinvulling van de architect, just in time architectuur en big data project raamwerk. In deel 3 besprak hij diverse voorbeelden van big data patterns en grondplaten. En met deze blog sluit Bert de serie al weer af.

Datamanagement

Ligt de focus voor de ontwikkelaars en data scientist binnen een big data project veelal op de techniek en de introductie van een werkende oplossing. Voor de architect is daarom een taak weggelegd om een aantal datamanagement aspecten te bewaken. Binnen big data projecten worden allerlei verschillende soorten databronnen ontsloten, de ontsloten data wordt getransformeerd tot analyseerbare data vanuit die data ontstaan allerlei inzichten.

Dat maakt enerzijds de ontstane producten waardevol, er zijn namelijk met complexe transformaties waardevolle dataproducten ontstaan die mogelijk ook in andere toepassingen relevant zijn. Anderzijds ontstaan er ook nieuwe risico’s met name op het gebied van privacy, security en ethiek.

De architect zal een aantal datamanagement zaken moeten bewaken en zorgen voor coördinatie naar de relevante stakeholders in de organisatie. Hieronder de belangrijkste aspecten.

Eigenaarschap

Toewijzen van eigenaarschap van datasets is binnen het gehele datalandschap relevant. Naast de traditionele databronnen zijn ook de big data sets van belang Is het vinden van de juiste eigenaar binnen de traditionele data geen sinecure, in big data toepassingen is het een regelrechte uitdaging. Data wordt getransformeerd en gecombineerd met allerhande externe databronnen. Daarnaast ontstaan er allerlei tussenproducten waarvan eigenaarschap onduidelijk is.

De big data architect zal zelf geen eigenaar zijn van deze datasets binnen het big data landschap. Echter hij of zij zal zorg moeten dragen dat de activiteiten rond het eigenaarschap en de toewijzing van datasets aan eigenaren belegd is in het project. Vervolgens dient hij of zij te bewaken dat hiertoe een adequate registratie ingericht wordt.

Provenance en Lineage

Zodra de producten uit de big data projecten ingezet worden als toepassing op basis waarvan in de gebruikende organisatie beslissingen worden genomen worden data provenance en data lineage belangrijk.

Data Provenance is het bepalen van de bron van toegepaste data. Data Lineage zijn de bewerkingsstappen die gedaan zijn op de data tussen databron en het toepassen van de data. Met name vanuit financiële en compliance controles is een adequate inrichting hiervan belangrijk.

Hiertoe zal er onder andere een dataset register geïntroduceerd dienen te worden voor de provenance. Voor de lineage wordt veelal gezocht naar geautomatiseerde toepassingen en het toepassen van de eerder genoemde patronen. In de big data pattern catologus van architura is zodoende een meta data insertion pattern en een centralized dataset governance uitgewerkt. Zie https://patterns.arcitura.com/big-data-patterns/design_patterns/centralized_dataset_governance.

Het is niet perse noodzakelijk dat de architect deze registers zelf gaat beheren, is er bijvoorbeeld een data governance office dan zal daar het beheer plaatsvinden. Wel essentieel voor de architect is dat de concerns van verschillende stakeholders die lineage en provenance van belang vinden, zoals controllers en wetgevers, voldoende bewaakt worden.

Data modelleren

Data modelleren is in traditionele data verwerkende projecten veelal een standaard onderdeel van het ontwikkelproces. In big data trajecten kan dit een complexe activiteit zijn. Bijvoorbeeld bij de verwerking van laag gestructureerde databronnen zoals teksten (uit social media) is van een datamodel niet echt sprake. Echter hoe dichter je bij de uiteindelijke toepassing komt hoe meer er gestructureerde en te modelleren datasets ontstaan. Hiervan zijn datamodellen relatief eenvoudig op te stellen.

Echter de focus in projecten ligt hier veelal niet op, zeker niet in de initiële fase als er nog volop technische en datawetenschappelijke uitdagingen op te lossen zijn.

De data architect zal daarom zorg moeten dragen voor een aantal conventies en werkwijzen rond het opstellen van data modellen. Ook hierbij zal blijken dat het uitwerken van patronen en de selectie van een beperkte set aan modelleertechnieken bijdragen een een adequate just in time architectuur.

Cloud en on premise

Welke datasets worden opgeslagen in de on premise infrastructuur en welke in de cloud? Welke cloud vorm gaan we kiezen IaaS, PaaS of SaaS (soms wordt zelf gesproken over DaaS)? Deze keuze kan tot veel discussie en onduidelijkheid leiden binnen de big data project teams.

Bij het maken van keuzes kan een data architect een belangrijke bijdrage leveren. Dit door het in kaart brengen van de relevante stakeholders (en dat zijn er meestal meer dan in eerste instantie zichtbaar). Vervolgens door het inventariseren van de concerns van deze stakeholders en deze omzetten in requirements. Waar mogelijk kan de architect deze zelfs verdichten tot architectuur principes. Op basis hiervan kunnen beslisbomen of checklists ontwikkeld worden die ingezet worden bij de keuze voor on premise of cloud oplossingen inclusief eventueel aanvullende maatregelen die noodzakelijk zijn voor een gewenste inrichtingsvorm verdeeld over on premise en cloud.

Big Data Architectuur repository

In de voorgaande hoofdstukken zijn we ingegaan op de verschillende activiteiten en hulpmiddelen die een architect kan inzetten ter ondersteuning van big data projecten. Hierbij is de term “just in time architectuur” regelmatig gevallen. Dit is een belangrijk kenmerk van de nieuwe rolinvulling voor de architect.

Er zal dus ook gezocht moeten worden naar een werkwijze waarbij je als architect in staat bent om just in time je producten en diensten aan te bieden. De inzet van een architectuur repository met daarin uitwerkingen van de verschillende grondplaten, blauwdrukken en registers is daarbij onontbeerlijk.

De afbeelding hierboven is een navigatiepagina van een dergelijke architectuur repository met daarin uitgewerkte algemene patronen, bouwblokken etc. Deze repository is uitgewerkt in een Sparx Enterprise Architect database en als een ArchiMate uitwisselfile op basis van XML. Heb je interesse in een van deze producten schroom dan niet om contact met me op te nemen.

Meer lezen over dit topic kan onder blogs. Of neem eens een kijkje op de site van Bert Dingemans en mede-maat Han van Roosmalen.