Mythen over big data laten veel IT-beslissers vertwijfeld achter, laten resources ongebruikt of sturen IT'ers de verkeerde richting op. Bedrijven lopen hierdoor risico kansen te missen.
Dit zijn de negen grootste broodje aap-verhlen over big data en Hadoop die je maar beter kunt negeren.
1. 'Er zijn genoeg dataspecialisten voorhanden'
Onlands vertelde een presales engineer van een partnerbedrijf hoeveel moeite zijn organisatie had met het vinden van datawetenschappers. Ik vroeg hem naar de kwalificaties waarnaar hij zocht. Hij zei dat hij vroeg om een doctoraal in wiskunde, een achtergrond in computertechniek, een MBA en naar relevante werkervaring op al deze gebieden. Ik zei hem: "Zoek je soms iemand rond een leeftijd van 90 jaar?"
Data-wetenschappers met een perfecte achtergrond zijn zeldzaam. Deze mensen bestaan wel:
- Goede wiskundigen die hun Python-kwaliteiten moeten bijschaven en alles moeten leren over de werking van de business.
- Computertechneuten die wat van wiskunde weten.
- Goede computertechnici die door schade en schande inmiddels redelijk wat van de business weten.
- Business-personeel met kennis van wiskunde.
- Domeinspecialisten.
- Leiders die weten hoe je deze mensen samen laat werken.
Omdat bedrijven de ideale dataspecialist nooit zullen vinden, moet je werkgroepen creƫren waarin verschillende expertises samenkomen. Dit is de enige juiste aanpak.
2. 'Alles is nieuw'
Technologiespecialisten gooien graag oude meuk weg om te kiezen voor nieuwe tools die nieuwe problemen oplossen. Dat is zelden het geval.
Zo wordt de Kafka message-broker gezien als het nieuwe big dataproduct dat iedereen nodig zou hebben. Maar vergeleken met bestaande message-brokers, kent Kafka een vrij slappe functionaliteitenset en is het nog onvolwassen. Het enige nieuwe (en dus meerwaarde vertegenwoordigend) is dat het ontworpen is voor Hadoop met grootschalige distributie in gedachten. Dat kan handig zijn, mits je maar rekening houdt met de tekortkomingen.
Dat gezegd hebbende, is het soms beter om met bestaande tools te blijven werken. Zo blijft voor de meeste situaties ActiveMQ de robuuste tool beschikbaar.
3. 'Je hebt echt machinelearning nodig
Ik schat dat wat 85 procent van wat mensen machinelearning noemen, neerkomt op simpele statistiek. De meeste van je problemen zijn waarschijnlijk oplosbaar met simpele wiskunde en statistiek. Begin daar en verkijk je niet op wat als 'machinelearning' wordt aangeprezen.
4. 'Jouw problematiek is uniek'
Iedereen wil een unieke sneeuwvlok zijn, maar, zoals Tyler Durden uit Fight Club zei, niemand is het. En dat geldt ook voor big data. Ongeveer de helft van de industrie is bezig dezelfde ETL-scripts voor dezelfde databronnen te schrijven en werkt aan dezelfde analyses. Sterker nog, zelfs binnen bedrijven doen sommige afdelingen zelfs hetzelfde.
5. 'Hive is snel'
Hive is niet snel. Integendeel. Ja, de nieuwe versie doet het beter, maar vanuit performanceperspectief stelt het weinig voor. Wel schaalt het goed op, maar je zult meerdere tools nodig hebben om Hadoop lekker te laten werken met SQL.
6. 'Clusters kunnen uit minder dan 12 nodes bestaan'
Hadoop 2.x draait al nauwelijks op twaalf nodes - heb je er minder dan duurt het al een eeuw om te starten. Daarnaast zullen taken die je draait te langzaam verlopen. (Behalve als je genoegen neemt met enkel 'hello world'.) Hadoop 2 draait meer processen, wat betekent dat je met meerdere nodes en geheugen moet werken. Spark doet het op <12 nodes beter, zolang de dataset maar in het geheugen past.
7. 'Virtualisatie is voor datanodes een oplossing'
Je leverancier vertelde al dat het niet kon. Ook je IT-team steigerde. Laat ik het dan nog een keer zeggen: Nee, je kunt geen datanodes op je SAN kwijt. Maar ook het plaatsen van de beheernodes in VM's kunnen bottlenecks creen als het schrijven van de logs en journals de latencygrens bereikt. Hierdoor krijg je lage IOPS of hoge latency voor je datanodes.
Toch kun je met cloudproviders als AWS en andere wel een redelijke performance en schaalbaarheid krijgen. Dat is alleen mogelijk als je een duidelijk onderscheid maakt tussen je fileservers intern en je externe presence. Daarnaast zul je wat moeite moeten doen om de virtuele resources effectief te beheren.
8. 'Ieder probleem is een big data probleem'
Als je een bepaald aantal velden tegen een aantal condities over meerdere terabytes matcht, dan is hier niet echt sprake van een big data probleem. Noem niet alles wat je met analytics doet een big data project.
9. 'Je hebt geen big data'
Hoewel big data bedoeld is om te werken met grote sets data, kunnen bepaalde benaderingen van big data ook handig zijn op kleinere datasets. Dus negeer deze niet. Ook als het gaat om maar een paar gigabyte data, kun je profiteren van Hadoop of andere big data-technologie, afhankelijk van het precieze problemen.
Je kunt ook met big data zitten waar je nu nog geen weet van hebt. Er zijn veel datasets waarvan bedrijven gewend zijn deze te vernietigen, maar deze kunnen wel degelijk bruikbaar zijn. Een bedrijf met 50 of meer werknemers heeft waarschijnlijk wel ergens een issue waarbij big data kan helpen - zelfs kleinere bedrijven, mits ze genoeg assets daarvoor beheren (denk aan financiƫle dienstverleners).
Andrew C. Oliver is softwareconsultant, oprichter van Apache's POI-project en expert op gebied van programmeertalen. Ook is hij oprichter en president van Mammoth Data, een adviesbureau in big data.
Reageer
Preview