Waarom? Het is heel kostbaar om datawarehouses te bouwen. Hard- en software voor een datawarehouse zijn vrij prijzig. Vaak beginnen de prijzen bij 1 miljoen euro - en dan schat ik het nog heel conservatief.
We kunnen tegenwoordig gebruikmaken van big data via cloudplatforms. Nu kun je toegang krijgen tot de hardware van anderen om gigantische dataopslagsystemen te maken. Deze opslagsystemen kunnen zeer gedistribueerde queryverwerkingssystemen aanspreken om binnen enkele minuten of zelfs seconden antwoorden in oceanen van data te vinden.
Verschil tussen twee manieren van omgaan met data
Traditionele datawarehouses werken vaak met abstracte data die bewerkt is (clean en getransformeerd) en geplaatst in een aparte database om daarop specifieke analytics uit te voeren (denk aan compliancerapportages of salestrends). Deze data wordt incrementeel geüpdate met hetzelfde type bewerkte data, vaak elke week of elke maand.
Big data systemen werken daarentegen met ruwe data, of deze nu afkomstig is van operations (lograpportages), gebruikersactiviteit (websitetracking) of andere data afkomstig van externe bronnen. De ruwe data wordt niet bewerkt omdat de toepassing ervan nog niet vaststaat en er dus geen bekende vorm is waarin het getransformeerd zou moeten worden.
Het is duidelijk dat het gebruik van big data betekent dat je meer actuele informatie in de originele context tot je beschikking hebt waarmee je de beslissingen van lijnmanagers en bestuurders kunt ondersteunen. Daarnaast zijn de kosten ongeveer een derde van het optuigen van een traditioneel datawarehouse. Ook vergt het instellen en aanzetten van een big data-installatie op een publieke cloud ongeveer een tiende van de tijd.
Is er gezien deze opvallende voordelen voor big data in publieke clouds dan toch nog een toekomst voor datawarehousing?
Operationeel en tactisch
De realiteit is dat wie nu bezig zijn met datawarehousingtechnologie dat zullen blijven doen. Ondanks dat verschillende workloads naar big data gemigreerd worden, zie ik dat er steeds meer op operations gerichte systemen gedeployed worden. Big data systemen worden vaker ingezet voor tactische issues, zoals voor inventarisbeheer of sales forecasting.
Organisaties zullen datawarehousing blijven gebruiken voor rapportages en visualisaties die bestuurders nodig hebben en die wetgevende instanties vereisen. Deze worden gegenereerd door miljoenen kostende datawarehousesystemen en die zullen niet verdwijnen. Hoe kosteneffectief big data in de cloud ook mag worden, datawarehousing zal binnen grote organisaties nooit verdwijnen. Misschien vind je dat vreemd, maar zo zie ik het.
David Linthicum is senior vice-president bij Cloud Technology Partners en staat in de IT-wereld bekend als cloud computing en SOA expert. Hij schrijft met regelmaat bijdragen voor onze Amerikaanse zustersite Infoworld.com en schreef 13 boeken over de cloud.
Reageer
Preview