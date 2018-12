De afgelopen 15 jaar is er inhoudelijk niet veel veranderd in wat de meeste organisaties met hun data doen. Ze berekenen optimale verkoopprijzen, plannen hun voorraden of bezorgroutes, en roosteren personeel in. Geavanceerde data-analyse is echter zo betaalbaar geworden dat steeds creatievere analyses en complexe algoritmes mogelijk zijn, en daarnaast is er steeds meer data beschikbaar om analyses op te doen. Dit heeft de potentie om inzichten en significante waarde op te leveren, maar veel bedrijven komen niet zover. Geleid door de hype en een onweerstaanbaar gevoel van Big Data Envy, kunnen ze niet wachten om de ultieme big data-infrastructuur te bouwen, die uiteindelijk door de magie van machine learning allerlei zakelijke wijsheden zal gaan produceren. Dat is echter niet realistisch. Bovendien mag de infrastructuur nooit het uitgangspunt zijn. Je moet beginnen met het probleem dat je wilt oplossen of de waarde die je wilt creëren voor de organisatie of jouw klanten. Maar dan nog zijn er een aantal drempels te overwinnen.

1. Big Data Envy

Volgens Forbes investeerden bedrijven in 2018 wereldwijd maar liefst 42 miljard dollar in big data. Dit zal naar verwachting in 2027 zijn gestegen naar 103 miljard. Big Data Envy is in sommige gevallen de reden voor investeringen. Deze vorm van jaloers kuddegedrag maakt dat bedrijven zich zonder helder plan op het data science-pad begeven. Dit begint vaak met de opmerking "we moeten iets met data science", wat al snel tot kostbare projecten leidt om alle data samen te brengen in een datalake of datawarehouse. Dat is een valkkuil voor veel bedrijven. Als globale regel kun je er vanuit gaan dat een bedrijf met minder dan een petabyte (1000 terabyte) aan data in feite geen big data-infrastructuur nodig heeft. Laat je dus niet meeslepen in collectieve gekte, maar start met een helder plan.

2. Begin klein maar relevant

Ik ben fan van 'fail fast', ofwel: zo snel mogelijk ontdekken wat er wel of niet goed is aan je plan of idee. Je moet data science-projecten daarom niet te ingewikkeld maken. Begin met een klein project, maar baseer die wel op een praktische use case. Bedenk iets dat het bedrijf op een significante manier raakt qua bedrijfsvoering en besluitvorming, maar niet zo'n groot project dat er datalakes aan te pas hoeven te komen. Het gaat erom dat je resultaten behaalt die bruikbaar zijn voor de organisatie en meetbare verbeteringen opleveren.

Bedenk bovendien dat veel data binnen bedrijven nog gewoon gestructureerde informatie is. Voor veel analyses is maar weinig data nodig, en zijn big data infrastructuren, machine learning en enorme datavolumes simpelweg overkill. Het belangrijkste doel dat je moet nastreven is dat je bedrijf betere beslissingen kan nemen. Ga dus uit van een concrete use case en begin klein.

3. Koppelen in plaats van integreren

Vier jaar geleden was de klassieke aanpak voor big data: sla alle beschikbare gegevens op, dan analyseren we later welke waarde ze hebben. Helaas is dat vooral een goede manier om jarenlang tijd en geld te verspillen aan het neerzetten van een peperdure infrastructuur vol 'dark data', die nooit door iemand bekeken zal worden.

Het is veel beter om vooraf te bedenken welke problemen je wilt oplossen, en welke inzichten je wilt krijgen. Vervolgens zoek je daar de informatiebronnen bij, en een manier om de gegevens op een efficiënte manier te analyseren. In de meeste gevallen zal dit niet zijn door alle data gestructureerd bij elkaar te brengen in één systeem. Dat is een illusie.

Realistischer is dat er steeds meer data van buitenaf komt. In zo'n situatie is het praktisch onmogelijk om alle data te kopiëren, synchroniseren en beheren. Veel beter is om een systeem te hanteren waarbij je externe bronnen koppelt, bijvoorbeeld via api's, en die alleen gebruikt voor de concrete informatie die je eruit wilt halen. En als dat niet via een centrale hub gaat, is dat prima. Doe niet alles centraal, maar overweeg een decentrale aanpak. Koppel verschillende ecosystemen in plaats van ze in één database bij elkaar te krijgen. Een enkele database resulteert namelijk in een statische data-infrastructuur, die opschalen steeds lastiger maakt. Daarnaast bestaan er in data science ook geen statische requirements. Dat hele landschap verandert namelijk continu.

4. Focus op de 'last mile'

Data science is relatief nieuw binnen organisaties, waardoor een succesvolle integratie ervan binnen de bedrijfsprocessen bijzonder lastig kan zijn. Dat begint al bij het begrip van de complexiteit van dit soort projecten. Na een hackathon en een proof of concept zullen veel mensen heel enthousiast roepen: "Dit is leuk! Kan het volgende week live in productie?" Dat is totaal onrealistisch, omdat het 10 tot 50 keer meer werk kost om iets in productie voor elkaar te krijgen, dan in een eenvoudige proof of concept. Je krijgt dan immers te maken met actuele bedrijfsdata, technische en juridische vereisten en bovendien de bedrijfsprocessen. Probeer de oplossing dan ook altijd in zijn volledige context te zien en stel je verwachtingen hier op bij. Die 'last mile' is namelijk altijd het lastigst, zo concludeert ook McKinsey. De laatste 20 procent van het project kost vaak 80 procent van de moeite.

Het mag duidelijk zijn dat een succesvol data science-project begint met een helder plan, en niet met het bouwen van een monolithische data-infrastructuur. Laat je niet leiden door Big Data Envy, maar begin met een klein project waar de organisatie significant van profiteert. Zoek daar vervolgens alle relevante databronnen bij, en probeer die bij voorkeur niet te integreren, maar koppel ze op een flexibele manier aan elkaar. En als het project dan eenmaal de tastbare potentie die het kan opleveren laat zien, realiseer je dat het dan pas echt begint. Het project van testfase naar productie krijgen vereist namelijk veel meer inspanning. Maar deel vooral je eerste resultaten. Dit helpt medewerkers en management om de voordelen van data science te begrijpen, wat vervolgens het noodzakelijke draagvlak creëert om uiteindelijk een datagedreven organisatie te realiseren.