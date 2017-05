Big Data is erg populair op dit moment, met algoritmen en machine learning in het hart van vrijwel elke zakelijke applicatie. Deze technologie pakt enorme datasets en zet daar complexe algoritmen op om beslissingen te (kunnen) maken met verregaande consequenties. Het begint de norm te worden nu bedrijven zoeken naar zakelijke intelligentie die resulteert uit voorspellende modellen en statistische analyses.

Er zit een enorme waarde in, omdat bedrijven conclusies kunnen trekken en vooraf over statistiek beschikken om daarop intelligente zakelijke besluiten op te baseren. Maar wanneer begint de data de gebruiker aan te sturen in plaats dat de gebruiker de data onder controle heeft? Mensen lijken zonder meer de (resultaten van) big data te aanvaarden omdat het uit een machine komt en dus juist moet zijn. O ja? Nee!

Er zijn inherente fouten en zwakheden in de meeste analytische modellen, zoals is bewezen door Kurt Gödel met zijn theorie over de incompleetheid, die voorspelt dat elk formeel systeem uiteindelijk faalt. En helaas met big data is de mate van falen overeenkomstig groter.

Hier zijn de drie meest voorkomende onderliggende oorzaken voor problemen met big data.

Fantoomdata

De meeste cijfers waarmee we werken in de dagelijkse besluitvorming komen van enorme databases en zijn geanalyseerd met complexe analytische processen voordat we ze onder ogen krijgen. Op het eerste gezicht is er geen manier om te beoordelen of die cijfers accuraat zijn.

Laten we als voorbeeld een winkel nemen. In veel gevallen zijn de originele cijfers geperst in een machine op de werkvloer door het winkelpersoneel. Dus de invoerdata is onderhevig aan menselijke fouten. Kassapersoneel is nog steeds verantwoordelijk om de juiste barcodes uit te lezen of in te voeren, en het magazijnpersoneel is nog steeds verantwoordelijk voor het correct tellen en aanvullen van de voorraad. We hebben dergelijke taken nog steeds niet overgedragen aan machines en dus kunnen fouten in die fase van het proces leiden tot grotere discrepanties verder in het proces en resulteren in onnauwkeurige inkoop- en marketingbeslissingen.

Het is dus van belang om de cijfers te controleren als ze in een systeem komen. De GIGO-theorie (garbage in, garbage out) geldt in dit geval zeker en dus zijn controlepunten en cross-referenties cruciaal voor elk zakelijk proces om zo menselijke fouten eruit te halen en ervoor te zorgen dat de data die de algoritmes voor de kiezen krijgen accuraat is. Een onderzoek laat bijvoorbeeld zien dat tot aan 65 procent van alle voorraden in de retail inaccuraat is. Fantoomvoorraden zorgen voor veel problemen in de retail, omdat het systeem zegt dat er voorraad is maar om welke reden dan ook (diefstal, fraude of misrekening) zijn de betreffende producten niet beschikbaar op het moment dat de klant erom vraagt. Dat leidt tot ontevredenheid bij de klant en mogelijk verdere problemen omdat ook de inkoop wordt geraakt.

Blind geloof in de cijfers

Data is tegenwoordig zo verweven met ons leven dat we er haast exclusief op vertrouwen bij het maken van bepaalde beslissingen. Een bepaald algemeen gebruikt algoritme is die in de evaluatie van werkprestaties. Het wordt gebruikt om de prestaties van werknemers te meten, maar wat ze juist kunnen meten is het totaalplaatje. Ze nemen andere omstandigheden niet in ogenschouw, zoals wellicht een uitschieter in de dataset die de resultaten heeft beïnvloed. Helaas nemen superieuren niettemin zomaar aan, terwijl als het een persoonlijke opvatting was geweest, mensen niet hadden geaarzeld om er vraagtekens bij te zetten. De resultaten van data-analyse worden daarentegen klakkeloos aangenomen.

