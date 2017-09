Data scientist geldt als het meest sexy beroep van dit moment. Deze bèta's verdienen bakken met geld. 90 procent van de data scientists wordt minimaal één keer in de maand door headhunters benaderd voor een nieuwe job en 30 procent zelfs meerdere keren per week, zo blijkt uit onderzoek van Crowdflower. Maar schijn bedriegt. In de praktijk zijn data scientists vooral bezig met vervelende rotklusjes zoals 'data wrangling' of 'data munging', oftewel het opschonen, classificeren, uniformeren, formatteren en converteren van data. Kortom: monnikenwerk dat verre van sexy is. Handige self-service tools verzachten het leed enigszins.

De onderzoekers van Crowdflower vroegen aan de data scientists wat hun minst en hun meest favoriete werkzaamheden zijn. In de top drie van favoriete klussen staat het 'bouwen en modelleren van data' bovenaan, gevolgd door 'data mining' en, het zal u niet verbazen, het 'verfijnen van algoritmes'. Dit zijn de spreekwoordelijke krenten in de pap, oftewel de redenen waarom studenten waarschijnlijk ooit voor het beroep van data scientist zijn gevallen.

Eenmaal op de werkvloer worden de data scientists echter hard met hun neus op de feiten gedrukt. Het 'opschonen en organiseren van data' wordt als ronduit de vervelendste klus ervaren. Ook van het 'labelen van data' en 'het verzamelen van data' gaat het hart van de gemiddelde data scientist niet sneller kloppen. Desondanks wordt de helft van hun werktijd (51 procent) inmiddels aan deze 'conciërge-taken' besteed. Voor het bouwen van algoritmes resteert slechts een schamele 9% van de werktijd. Doorploeteren dus, er lijkt weinig anders op te zitten.

Ondertussen neemt de data-explosie alleen maar toe. Door de sterke groei van het aantal mobiele gebruikers en telefoons, de vele Internet of Things (IoT) connecties, hogere netwerksnelheden en mobiele video zal het totale mobiele dataverkeer in de komende vijf jaar met een factor 7 toenemen, zo becijferde Cisco onlangs. In 2021 heeft alleen het mobiele dataverkeer al een omvang van 49 exabyte per maand, ofwel 587 exabyte per jaar. Dit is 122 keer meer dan al het mobiele verkeer in 2011.

Onder het motto 'Store everything' dreigen ondernemingen te verdrinken in hun eigen data lakes. Hun data lake lijkt inmiddels meer op een verraderlijk moeras dan op een rimpelloos meer. 90 procent van alle data is namelijk ook nog eens ongestructureerd, 'dark' en opgeslagen in diverse soms exotische audio-, foto-, video- en tekstformaten. Uit onderzoek van IDC blijkt dat slechts 12 procent van alle opgeslagen data daadwerkelijk wordt gebruikt voor het verwerven van waardevolle inzichten. Experts schatten dat van alle opgeslagen data gemiddeld 41 procent de afgelopen drie jaar niet is 'aangeraakt'. Er is dus sprake van een megaverspilling. Maar er gloort hoop.

Inspelend op de grote behoefte aan snelle geautomatiseerde tools voor data cleaning en data discovery ontwikkelden de bekende household names en minder bekende start-ups als Trifacta, Paxata zogenoemde self-service Data Preparation Tools. Deze tools 'zwemmen' als het ware door het data lake van de onderneming op zoek naar relevante data. Al 'snorkelend' gaan ze op onderzoek uit en eenmaal op het droge tonen ze hun inmiddels schoongemaakte buit, een aantal keurig gerangschikte en opgeschoonde dataverzamelingen. Echte pareltjes zitten er tussen.

De tools komen op basis van machine learning bovendien nog met aanbevelingen welke verbanden en correlaties het waard zijn om nader te onderzoeken. Analisten schatten de markt voor Data Preparation Tools inmiddels op meer dan een half miljard dollar en de markt groeit jaarlijks met dubbele cijfers. Zowel Gartner als Forrester geven hun visie op deze ontluikende markt. Gartner evalueert 36 standalone en in andere platformen geïntegreerde oplossingen. Forrester is een stuk selectiever en bespreekt het aanbod van de zeven belangrijkste aanbieders. Doe uw voordeel er mee.

Een waarschuwing is op zijn plaats. De self-service Data Preparation Tools zijn geen vervanging voor een formeel, traditioneel data governance-programma en robuuste oplossingen voor data-integratie, data-extractie en het omzetten en wegschrijven van data. Voor de juiste inzichten zijn ondernemers daarnaast nog steeds afhankelijk van echte data-experts en een robuust Data Discovery Platform (DDP) dat moderne Insights-as-a-Service levert.

In 1964 zou een terabyte aan storagecapaciteit omgerekend 3,5 miljard dollar hebben gekost, zo berekende PwC. Dat is een gigantisch bedrag vergeleken met de 27 dollar die je dankzij Moore's Law in 2016 betaalde voor een terabyte storage. De roep om dus maar alle data te bewaren en al dan niet in de cloud op te slaan, omdat de storage toch bijna gratis is, klinkt logisch, maar is populistisch. Men gaat hierbij volledig voorbij aan de managementkosten voor storagebeheer, energiekosten (koeling), back-upkosten en voorzieningen voor disaster recovery, privacy, security en gegevensbescherming.

Een data lake kan als een spreekwoordelijke molensteen om je nek gaan hangen. Ondernemingen zouden hun data-strategieën daarom veel meer op waarde dan op volume moeten enten. Een gebruiksvriendelijke, op self-service gebaseerde tool, die alle tijdvretende, vervelende klusjes van het voorbereiden en gereedmaken van data voor analyses, overneemt, lijkt geen overbodige luxe. Zeker niet in het tijdperk van machine learning.

Tot slot: ze zeggen dat je in drijfzand niet echt kunt verdrinken, maar een data-moeras, dat is een ander verhaal. Hoe overleef je een data-moeras? Ga op zoek naar de juiste tool. En voor de 'data wranglers' zonder tool heb ik muziek die altijd werkt: 'Keep your head up' van Ben Howard.