Handboek data techniek

Wanneer je écht actief als organisatie met data aan de slag gaat is het van cruciaal belang dat je zorgt voor een goede technische basis. Zonder dit fundament kun je op de korte termijn echt wel stappen maken, maar er komt snel een punt waarop het erg lastig wordt om verdere stappen te zetten.

Maar waar moet je nu op letten?

Toegankelijkheid voor iedereen

In de basis moet het technische fundament gericht zijn op het zo toegankelijk mogelijk maken van de data voor iedereen. Dit is zowel praktisch toegankelijk: op welke plek vind ik de data? Maar heeft bijvoorbeeld ook veel te maken met de begrijpbaarheid van de data: wat betekenen deze 3 kolommen in de data?

Gebruik van data is vaak complex omdat het een combinatie vergt van twee verschillende vakgebieden. Aan de ene kant is er natuurlijk de data-expert die de data op de juiste manier inricht voor gebruik, maar aan de andere kant is daar de domein-expert die weet waar de data nu eigenlijk over gaat.

Een data-expert zal niet zo zeer medische data kunnen interpreteren omdat hij of zij de kennis niet heeft over wat er in die data te vinden is. Data wordt toegepast op vele verschillende terreinen. Geen marktanalyse interpretatie zonder marketing-expert, geen goede geografische analyse zonder geo-expert, en geen goede interne analyse zonder kwaliteitsmedewerker.

Dit maakt het moeilijk om effectief betrouwbare datasets te maken. Goede, betrouwbare data ter beschikking stellen is lastig omdat dit zowel technisch moet kloppen, als in lijn moet zijn met hoe de domein-experts werken. Deze laatste groep zijn immers de mensen aan wie de data betere ondersteuning moet bieden.

Een grote valkuil is vaak dat er maar 1 of 2 personen met data aan de slag gaan, en hun eigen interpretatie los laten op de data. Dit gaat vaak snel, omdat die personen diep in de data zijn gedoken. Zij hebben de kennis opgedaan zodat de data voor hen toegankelijk is. Maar en passant sluit je een groot deel van de kennis van medewerkers uit bij de analyse: iedereen die niet actief bezig is geweest met de data.

Wij geloven erin dat je zoveel mogelijk mensen binnen de organisatie betrekt bij het interpreteren en begrijpen van de data. Daarom is het van belang dat je bij de toegankelijkheid van het dashboard ook goed nadenkt over iedereen binnen de organisatie. Wie gaan hier actief iets mee doen? Hoe kunnen we hen het beste ondersteunen?

Data management

Een belangrijk onderdeel van het goed in kunnen richten van data binnen de organisatie is om data management op de juiste manier in te richten. Om te zorgen dat er een duidelijke visie is op het gebruik van data en er iemand is die dit in de organisatie stimuleert.

Eigenlijk niets anders dan leiderschap op het gebied van data ontwikkeling

Lees ook: Waarom is data management belangrijk?

Data warehouse ontwikkelen

Een belangrijke troef in het toegankelijk maken van de data is om data gemakkelijk ter beschikking te stellen. Om te zorgen dat we verschillende datasets snel ter beschikking kunnen stellen en dat meerdere mensen deze weten te vinden. Door data op deze manier toegankelijk te maken is er in ieder geval 1 horde genomen op het data-toegankelijkheidscircuit.

In deze situatie ontwikkelen wij samen met jouw organisatie een data warehouse. In dit data warehouse zorgen we dat data vanuit verschillende bronnen wordt ingeladen, en toegankelijk wordt gemaakt op 1 plek. Data in het data warehouse is betrouwbaar en altijd up-to-date, zodat je altijd zeker weet dat dit de juiste plek is om data te verkrijgen.

Zo’n warehouse inrichten gaat vaak niet over één nacht ijs. Een aanpak die wij vaak kiezen is dat we stapsgewijs het data warehouse vullen met verschillende datasets. Door te starten met een inventarisatie van wensen binnen de organisatie is er een overzicht aan data waar behoefte aan is. Vervolgens starten we met de belangrijkste data en stellen we deze als eerste ter beschikking in het data warehouse. Vanuit die basis werken we verder om het verder uit te breiden.

Het is belangrijk dat de medewerkers die data uit het data warehouse gebruiken 100% vertrouwen kunnen hebben in de data. Zou jij snel een appel kopen in en groentewinkel die sterk verouderd is, waar de kratjes uit elkaar vallen en de spinnenwebben aan het plafond hangen? Ik in ieder geval niet. Als jouw data warehouse die indruk geeft aan potentiële gebruikers, is het lastig om aan hen te verkopen dat die specifieke dataset wel van goede kwaliteit is.

Daarom is het van belang om goed te controleren of de data die in het data warehouse terecht komt ook daadwerkelijk goede data is. Een belangrijke stap is voor ons dan ook om regelmatig te valideren of de data die beschikbaar is matcht met de verwachtingen en domeinkennis van de medewerkers.

En dat hoeft vaak niet eens te betekenen dat er iets mis is met het inladen van de data. Het kan ook net zo goed voorkomen dat er in het registratiesysteem vaak iets niet op de juiste manier gevuld wordt. Doordat dit dan gek gevuld is, is het resulterende dashboard natuurlijk ook gek. Als dit samen geconstateerd is kun je het over de oplossing hebben: is er een andere manier van inladen van de data nodig en schonen we deze op met behulp van een scriptje, of gaan we samen anders registeren zodat de brondata klopt?

De juiste mensen & kennis

Zeker bij het inrichten van het technische fundament voor data-gedreven werken is het van belang dat je de juiste kennis beschikbaar hebt binnen de organisatie. Omdat de data wereld ook snel veranderd is het daarnaast ook nog van belang dat deze personen op de hoogte blijven van de belangrijke trends, ontwikkelingen en veiligheidsrisico’s.

Data modelleren

Het samen inrichten van de datasets is een goede manier om snel de eerste stappen te zetten met het data warehouse. Daarnaast helpt het om inzicht te krijgen in welke data er nu eigenlijk allemaal leeft binnen de organisatie. Juist door met de data aan de slag te gaan krijg je nog meer inzicht in welke data je nog meer kunt gebruiken.

Maar als je een data warehouse alleen maar dataset voor dataset vult bestaat er een risico dat het datawarehouse alleen maar bestaat uit losse datasets. Juist het koppelen van data van verschillende systemen kan juist zoveel waarde bieden voor de eindgebruiker.

Daarom is het van belang dat je als data-expert bij het inrichten van het data warehouse niet alleen kijkt naar de losse datasets, maar ook naar de gehele data omgeving. Hoe sluiten de datasets aan op de praktijk binnen de organisatie? Welke datasets zeggen iets over de processen? Welke datasets juist iets over de (potentiële) klanten? En hoe verhouden de verschillende datasets zich tot elkaar?

De manier waarop verschillende datasets gekoppeld kunnen worden en hoe deze zich tot elkaar verhouden analyseren we door het opstellen van een data model. Dit data model geeft aan welke datasets er beschikbaar zijn, en wat er in deze datasets te vinden is. Dit is eigenlijk altijd een taak die de data-expert op zich neemt, omdat het ontwikkelen van een goed data model vaak technisch lastig is. Daarnaast vormt het straks de basis voor de verdere inrichtig van het data warehouse. Belangrijk dus dat dit goed gedaan wordt!

Aan de hand van vele verschillende beschikbare data gaan we daadwerkelijk aan de slag met data modelleren. In dit data model analyseren we welke informatie op welke plek aanwezig is, wat de verschillende eigenschappen zijn van deze informatie en vooral ook hoe de verschillende informatie aan elkaar gekoppeld kan worden. Dit resulteert in een visueel model over hoe het data landschap van de organisatie eruit ziet.

Afhankelijk van de wensen binnen de organisatie kun je ook werken met het modelleren van verschillende dimensies. Deze dimensies vormen dan het “koppelfundament” binnen het datawarehouse. Dat wil zeggen dat je eigenlijk alle datasets die je inlaad aansluit op deze gemene deler. Als zo’n dataset dan aansluit op die gemene deler kun je deze dataset koppelen met alle andere datasets die ook deze gemene deler implementeren. Handig, want zo koppel je dataset snel en effectief!

Realtime dashboards, data en informatie

Een ander voordeel van het inrichten van een data warehouse is dat data bronnen automatisch ververst kunnen worden. Wanneer je met losse datasets blijft werken is het vaak een zoektocht naar de laatste versie. Is het versie 2, versie maart 2022, of versie ‘nu echt definitief’?

Vanuit het datawarehouse gebruik je altijd de juiste dataset, omdat er maar 1 beschikbaar is: de meest recente versie. Door het proces van inladen en koppelen te automatiseren zorg je er ook daadwerkelijk voor dat deze dataset altijd de laatste is.

Elke twee weken een cadeautje in je mailbox?

Onze nieuwsbrief helpt je om beter met data om te gaan, door tips de geven die je direct kunt inzetten. Precies op de manier zoals je dat van ons geweld bent. Simpel, effectief en met een vleugje humor.