'Big data' is kans en uitdaging
Gepubliceerd: Dinsdag 13 december 2011
Auteur: Stephen Lawson
De hoeveelheid data blijft groeien. Net zoals het aantal tools om die data te managen. Goed gebruikmaken van al die data is echter niet eenvoudig.
De gevolgen die grote datasets kunnen hebben voor het bedrijfsleven en de wetenschap beginnen pas net tot ons door te dringen. Organisaties moeten echter wel gaan nadenken over de manieren waarop ze voordeel kunnen halen uit al die informatie, stelden deelenmers aan een discussie in Silicon Valley vorige week.
'Big data' vormt zowel een uitdaging als een kans om voordeel te halen op de concurrentie, stelden de sprekers in het Computer History Museum in Mountain View, California.
Storage
Nieuwe apparaten en applicaties verzamelen meer data dan ooit en meer en meer organisaties maken ervan gebruik. Daarmee groeit ook de vraag naar storage,
In het tweede kwartaal van dit jaar verscheepten storage-bedrijven 5.429 petabytes aan diskcapaciteit. Dat is ruim 30 procent meer dan in dezelfde periode vorig jaar, zo meldde IDC twee weken geleden.
Consumentenvoorkeuren
"De data-groei is nu al sneller dan de Wet van Moore en de netwerkgroei", constateerde Anand Rajaraman, senior vice president bij de e-commerce-afdeling van warenhuisketen Walmart.
Zijn afdeling ontwikkelt tools om gebruik te maken van nieuwe data. Bij 'nieuwe data' moet onder meer worden gedacht aan applicaties die informatie van bronnen als Twitter en Facebook verzamelen om consumentenvoorkeuren te achterhalen.
Nieuwe tools
Big data vereist nieuwe tools. Zo zou het bijvoorbeeld 27 uur kosten om een logistiek regressie-algoritme uit te voeren (om de kans op een bepaalde gebeurtenis uit te rekenen) met 30 GB aan data. Maar door gebruik te maken van 32 computers kan het in 60 seconden.
"Groter dan de vorige generatie, non-parallelle infrastructuur kon verhapstukken zou een bruikbare definitie zijn van big data", zegt Luke Lonergan, chief technology officer en medeoprichter van Greenplum, dan ook.
Nieuwe bronnen
Het analyseren van de data wordt moeilijker. Niet alleen omdat er steeds meer data zijn, maar ook omdat het uit verschillende, nieuwe bronnen afkomstig is, stelden de paneldeelnemers.
Blogs, webreacties en dergelijke kunnen niet zomaar in traditionele relatiedatabases worden ondergebracht. Daarmee is er een behoefte ontstaan aan nieuwe data-analyse-platforms, zoals het open-source Hadoop-framework waarmee Google en Facebook pionierden.
Reacties
blog comments powered by Disqus