Dark data, ook wel ongestructureerde data genoemd, groeit met 62 procent per jaar, volgens een onderzoek van IDG. In 2022 is 93 procent van alle data ongestructureerd.

Gartner definieert dark data als "de informatie-assets die een organisatie verzamelt, verwerkt en opslaat gedurende de reguliere bedrijfsactiviteiten, maar die over het algemeen niet voor andere doeleinden wordt gebruikt." Het bestaat uit data uit vele verschillende bronnen (e-mails, documenten, instant messages, digitale mediaberichten) of slechts informatie die niet wordt gebruikt of geanalyseerd. Met nieuwe regulering als de GDPR, die volgende maand van kracht wordt, moeten bedrijven een helder inzicht hebben in de data die ze hebben. Voor gestructureerde data is dat redelijk simpel, maar dark data is moeilijker te managen, mede doordat het verspreid in de IT-omgeving ligt met geen enkele eigenaarschap.

Een 'bodemloze' data-lake

Dark data is vaak tekstbegaseerde data, met daarbij video, audio en plaatjes. Het wordt gegenereerd uit verschillende soorten bronnen, vanaf mobiele apparaten, sociale platforms, apps en interne systemen, om maar eens wat te noemen. Veel van de data die gegenereerd wordt door het Industriële Internet en IoT is ongestructureerd, dus dit valt eveneens onder dark data.

Op de werkplek zijn werknemers verantwoordelijk voor het genereren van veel van die dark data. Het is zelfs zo, zegt Sony Shetty van Gartner, dat "werknemers in alle hoeken van de onderneming blind bouwen aan een bodemloos data-lake en dat wordt vaak gestimuleerd door de bedrijfsmantra van 'bewaar alles voor het geval dat'." Denk eens aan de hoeveelheid data die jij persoonlijk genereert, filtert en opslaat, elke werkdag weer. Zo worden telefoongesprekken met klanten opgeslagen 'voor trainingsdoeleinden' en als audiobestanden opgeslagen. Chatfuncties op websites en via bedrijfspagina's op Facebook worden eveneens vaak opgeslagen. Werknemers praten met elkaar via een instant messaging-functie op de desktop. Een onderzoek kwam tot de conclusie dat bedrijven bijna 500 zakelijke applicaties gebruiken, waarbij elke applicatie data genereert.

Al die data die met deze activiteiten wordt gegenereerd valt onder de definitie van dark data en wordt opgeslagen op verschillende apparaten, schijven, desktops en SaaS-platforms. Het meeste ervan zal nooit meer gebruikt worden. Werknemers vertrekken, en met hen hun wachtwoorden, klanten kijken elders, bedrijfsprioriteiten veranderen, en niemand heeft de taak, de mogelijkheid of de tijd om de data te verwijderen. De informatie is al snel verouderd en ontoegankelijk.

De noodzaak om inzicht te krijgen

Voor GDPR zou dark data een geaccepteerd onderdeel zijn van de legacy die een bedrijf heeft. In veel landen, zo ook in Nederland, is er in het verleden weinig geregeld over het opslaan en bewaren van dergelijke data, dus niemand bekommerde zich erom. Nu vereist GDPR dat bedrijven een diep inzicht hebben in hoe de datastromen in hun organisatie lopen, samen met een stringente data-governance.

De GDPR wordt in Nederland opgenomen in de nieuwe Algemene Verordening Gegevensbescherming, als vervanger van de Wet bescherming persoonsgegevens. Vanaf 25 mei moeten bedrijven weten wat ze allemaal aan informatie hebben over een "data subject" (klant, werknemer of andere belanghebbende) en die met ze delen als daarom wordt gevraagd. Ook moeten bedrijven op verzoek laten zien wanneer en hoe iemand expliciete toestemming heeft gegeven bepaalde gegevens te gebruiken en op te slaan en alleen die gegevens die nodig zijn om het initiële doel te bereiken mogen worden verwerkt.

"Inaccurate of verouderde data moet verwijderd worden of aangepast en bedrijven die eigenaar zijn van de data moeten 'alle redelijke stappen' hebben ondernomen om aan dat principe te voldoen", zegt Debbie Heywood van Taylor Wessing, een internationaal advocatenkantoor met vestigingen in Nederland.

Dat is enorm moeilijk na te komen als data wordt vastgehouden in silo's in alle hoeken van de organisatie. "Omdat ongestructureerde data veel tekst bevat en in diverse vormen bestaat is het niet makkelijk om er chocola van te maken", meldt een rapport van het Medallia Institute.

Onbekend terrein

De tijd is gekomen dat bedrijven nu hun dark data aan het licht brengen. Dat helpt in de compliance met GDPR, maar de voordelen van het inzicht in dark data gaat verder dan compliance alleen. Zie het als het ontdekken van onontgonnen land: het analyseren van deze ongestructureerde data biedt de kans om waardevolle inzichten te verkrijgen die anders ergens zou liggen te verstoffen. Het verandert informatie naar data en van data naar strategische inzichten.

Gartner zegt: "Sommige voorbeelden van data die vaak verborgen ligt zijn logbestanden van servers die wat zeggen over het gedrag van websitebezoekers, belgegevens die meer zeggen over het sentiment van de consument en mobiele geolocatiedata die verkeerspatronen kunnen laten zien die handig zijn in de bedrijfsplanning."

De meesten van ons weten bijvoorbeeld dat retailers experts zijn in het gebruik van psychologie bij het neerzetten van producten in de winkels. Ze begrijpen ons denkproces en hoe we bewegen in een winkel en zo plaatsen ze hun producten. Het bestuderen van videobeelden van de mobiliteit van consumenten in winkels helpt retailers hun productstrategie nog verder te verfijnen.

Deloitte zegt hierover: "Een retailer kan genuanceerdere inzichten krijgen in de emoties van de klant of diens bedoelingen door videobeelden te bestuderen van de houding van de shopper, gezichtsuitdrukkingen of gebaren." Deze inzichten, die uit die dark data kunnen komen, kunnen direct worden vertaald in omzet als retailers het toepassen in hun winkelvormgeving.

Door dark data te analyseren kunnen bedrijven:

Een werkelijk 360-graden eenduidig klantbeeld creëren, om zo interacties te verstevigen

Anticiperen, begrijpen en reageren op veranderingen in markt- en consumentenvraag

Een diep inzicht ontwikkelen in het klantsentiment op hun merken, gedistilleerd uit sociale platforms en multichannel interacties

Kwetsbare datapunten beschermen en persoonlijke data de veiligheid geven die vereist is

De accuraatheid van riskmanagementmodellen verfijnen

Zich herhalende pijnpunten voor klanten aanpakken en klantondersteuning versterken waar dat nodig is

Verbindingen tussen datasets herkennen

Een sterke bodem leggen voor accurate forecasting

Een dieper inzicht krijgen van de performance van de website via webanalytics

Nieuwe omzetstromen identificeren. Volgens IDC zal 50 procent van de grote bedrijven aan het einde van dit jaar omzet uit Data-as-a-Service (DaaS) verkrijgen via de verkoop van ruwe data, inzichten en aanbevelingen.

Nu is het analyseren van ongestructureerde data makkelijker dan ooit tevoren. Geavanceerde Customer Information Management-tools automatiseren en versnellen processen in het verbinden van datasets voor inzichten. Software scant zowel gestructureerde als ongestructureerde data met gebruikmaking van verschillende dataprofileringstechnieken. De resultaten van de scan worden gebruikt in het automatisch genereren van een bibliotheek vol documentatie, die een beschrijving geeft van de assets van het bedrijf en een metadata repository creëert. Je kan dan beginnen met het ontdekken van de kansen en mogelijkheden die in die data ligt - en dan wordt het echt leuk.