Analyse in de cloud: 5 wijze lessen
Gepubliceerd: Maandag 29 juni 2009
Auteur: Merv Adrian
Iedere onderneming, van de kleinste start-up tot de grootste multinational, moet in de hedendaagse markt flexibel zijn om te kunnen reageren op veranderende dynamiek en nieuwe concurrentie. Toch zijn het dezer dagen vaak de kleinere bedrijven die in een betere positie verkeren om zich aan te passen: opkomende nieuwe bedrijven hebben nu toegang tot datastromen (en technieken om die te analyseren) die tot voor kort het exclusieve domein waren van de grootste ondernemingen. Tegelijkertijd ontdekken de CIO's van grotere organisaties dat de oude systemen en gegevens waaraan ze zoveel succes te danken hebben, inmiddels beperkend werken. De kosten om al die oude systemen draaiende te houden beginnen te knellen: er gaat teveel budget naar onderhoud, en er blijft te weinig over voor nieuwe ontwikkeling en technologieën.
Nergens is die dynamiek beter zichtbaar dan bij Business Intelligence (BI). Nu BI andermaal bovenaan de prioriteiten- en wensenlijstjes staat, hebben CIO’s moeite om binnen budget aan de interne vraag te voldoen, en daarnaast nog ruimte te behouden voor innovatie. De kosten van proprietary servers en opslagapparatuur, en de ruimte en energie om ze te managen, rijzen de pan uit en trekken de aandacht van iedere CFO, CTO en inkoopprofessional. Een groeiend aantal kopieën van gegevens in meerdere ad-hoc analyse-systemen (schijnbaar een voor elke vraag die gesteld wordt) doen de kosten verder rijzen, en zelfs nieuwe “data-applicaties” kun tot tientallen miljoenen kosten als ze door veranderende requirements opgeschaald moeten worden.
Het is duidelijk dat er nieuwe benaderingen nodig zijn om op kosteneffectieve wijze BI-systemen schaalbaar te maken, en tegelijkertijd te voldoen aan de vraag naar informatie van het front. Hier volgen enkele voorbeelden van hoe vooruitziende organisaties hun grootschalige analyses in de cloud uitvoeren om deze impasse te doorbreken.
1. Blijf op koers met commodity hardware. De meeste nieuwe analytische data-engines draaien op goedkope commodity hardware, wat het traditionele IT kostenmodel en de conventionele benadering van nieuwe systemen op zijn kop zet. Mark Dunlap, consultant bij Evergreen Technologies: “Als je nu nog proprietary hardware gebruikt, vecht je een verloren strijd. Vroeger of later zal geen enkel bedrijf dat die technologie ontwikkeld nog in staat zijn de ontwikkelingen bij te houden. We zien dat steeds opnieuw gebeuren: ze kunnen de ontwikkelingen bij de commodity-systemen niet bijhouden.”
2. Koop capaciteit als je het nodig hebt, en niet op basis van wat een gesloten applicatie nodig heeft. Clint Johnson, VP Business Intelligence bij Zions Bancorporation, zit midden in een groot data-traject, waarbij hij locked-in aankoopmodellen probeert te vermijden. “We houden graag de mogelijkheid open om hardware eenvoudig en stapgewijs uit te breiden,” zegt Johnson. “De gespecialiseerde apparaten die we hebben bekeken waren schaalbaar in heel specifieke stappen.” Niet alleen zijn dat grote nieuwe aankopen, ze kunnen ook substantieel groter zijn dan op korte termijn nodig is, terwijl de kosten niet zijn afgestemd op gebruik, maar op capaciteit.
3. Ongebruikte server power is een gratis resource – maak er gebruik van. De typische gebruiksratio’s van gedistribueerde servers die voor BI-applicaties of datacentra worden ingezet, liggen vaak op 20 procent of lager, waardoor een substantiële hoeveelheid rekenkracht ongebruikt blijft. Nieuwere software kan van dat soort rekenkracht gebruikmaken met behulp van een effectieve provisioning strategie. Brian Dole, Director of Research Analytics bij Fox Audience Network: “Met mijn Greenplum cloud-gebaseerde database kan ik 40 nodes delen met het productiesysteem. Ik gebruik ze als ik ze nodig heb, en daarna geef ik ze weer terug.” Door naar behoefte “zandbakken” in te zetten (door servers of cores en data stores in de juiste vorm te mappen) wordt de betreffende taak efficiënt opgelost. Een goed-ontworpen server pool, met de juiste software voor flexibele provisioning, wordt zo je eigen interne ‘cloud’.
4. Blijf vragen stellen, blijf veranderen, en bewaar de gegevens. Nieuwe ervaringen in BI reflecteren de ‘agile’ http://www.infoworld.nl/web/Artikel/Wat-is-Agile2.htm methodieken die voor programmeurs zo effectief blijken te zijn. Complexe technieken, statistische analyses en nieuwe analytische modellen duiken op en verdwijnen weer. Ryan Hawk, Director of Information Management bij T-Mobile, wilde bijvoorbeeld met zijn team modellen bouwen voor telecomgebruik (de gevoeligheid voor marktbewegingen, het genereren van omzet et cetera), maar liep tegen een probleem aan omdat “data een business case is: we moeten beslissen wat we ons kunnen veroorloven te bewaren op onze MPP-systemen,” zegt Hawk. “Niets is moeilijker dan iedere 60 dagen data te moeten wissen – veel trends kun je zo niet ontdekken.”
Door hun data warehouse over te zetten naar een agile, gevirtualiseerde infrastructuur, heeft T-Mobile nu flexibele toegang tot meer gegevens en kunnen ze zoveel analyseren en heroverwegen als ze willen. Net als Fox zijn ze in staat naar behoefte analytische “zandbakken” te bouwen om zo nieuwe vragen te ontdekken. Neem data om dat soort vragen te onderzoeken. Breek het helemaal af, en doe het dan nog eens. Data is het andere element van de cloud: bewaar het waar je het nodig hebt, en gebruik het naar behoefte.
5. Draai programma’s “dicht bij de gegevens”. Het team van Dolan bij Fox werkt soms met twee weken aan gegevens: 100 miljard regels, tientallen terabytes. Dergelijke hoeveelheden gegevens in delen exporteren, omvormen, verplaatsen en distribueren (Extract, Transform en Load: ETL), beperkt door bandbreedte en systeemcapaciteit, duurde vroeger 3 tot 4 dagen. Om dan vervolgens alle verbindingen, indexen en andere structuren binnen de data opnieuw op te bouwen, kostte nog eens een dag of twee. Maar met nieuwe in-database analyse-technologie kan Fox nu programma’s direct in de database draaien, waardoor de flessenhals verdwijnt die daarvoor tussen zijn team en zakelijk inzicht lag. Volgens Dolan duurt “het verwerken van twee weken aan gegevens binnen onze Greenplum database niet meer dan 20 minuten”.
Informatie exploiteren is verplicht voor alle ondernemingen, en dit wordt alleen maar belangrijker naarmate de data-aanwas verder versnelt en nieuwe kostbare informatiestromen opduiken. Ondersteuning van de teams die met een agile antwoord komen is uit concurrentie-oogpunt pure noodzaak.
Merv Adrian is Principal bij consultant IT Market Strategy.
Reacties
blog comments powered by Disqus