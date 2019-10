Tien jaar geleden was het opstellen van een datastrategie relatief eenvoudig in vergelijking met nu. In die tijd discussieerden database-experts over de mogelijkheden en prestaties van relationele databases van Oracle, Microsoft en IBM, of over het gebruik van open source databases zoals MySQL en PostgresSQL. Een minderheid van de ondernemingen onderzocht NoSQL-databases van technologieën zoals MarkLogic, MongoDB en Apache Cassandra. Organisaties die veel data verplaatsen tussen bedrijfssystemen investeerden in ETL (Extract, Transform and Load) platforms en een kleine minderheid investeerde in datakwaliteit of in data management oplossingen.

Tegenwoordig moet de CIO erkennen dat data en informatie de 'olie' van de 21e eeuw is. Het hebben van diverse datamanagement-opties, betrouwbare dataops-praktijken, proactieve datagovernance, geavanceerde analyse, data science-programma's en volwassen machine learning-mogelijkheden zijn allemaal nodig om concurrerende en onderscheidende zakelijke mogelijkheden te leveren.

Ik heb vorige week de Strata Data Conference in New York bijgewoond om te zien waar de nieuwe kansen, trends en uitdagingen liggen in het creëren en uitvoeren van uitgebreide datastrategieën.

Die uitdagingen werden overduidelijk in de openingskeynote waarin Cloudera's CMO Mark Hollison onlangs gepubliceerd onderzoek van Harvard Business Review citeerde. Een belangrijke bevinding in het onderzoek is dat "negenenzestig procent zegt dat hun organisaties een uitgebreide datastrategie nodig hebben om de strategische doelen in de komende drie jaar te bereiken, maar slechts vijfendertig procent zegt dat de analyse- en datamanagementcapaciteiten van hun organisaties op koers liggen om die doelen te bereiken."

Dat is een aanzienlijke kloof die de groeiende bedrijfsverwachtingen rond data en analyse en de onderliggende complexiteit van de implementatie illustreert. CIO's die deze leemten willen opvullen, zouden de volgende vijf technische mogelijkheden moeten overwegen in hun datastrategieën.

1. Beheer dataplatformen op meerdere clouds

Volgens hetzelfde onderzoek is eenenvijftig procent van plan om als onderdeel van hun datastrategie gebruik te maken van meerdere clouds en heeft slechts twaalf procent meer dan vijfenzeventig procent van hun data in publieke clouds. De strategie van het consolideren van data in gecentraliseerde datawarehouses of datalakes lijkt gedateerd te zijn, en de nieuwe realiteit is dat CIO's in staat moeten zijn om data die zijn opgeslagen in meerdere publieke en private clouds te beheren, te integreren en te delen.

Het goede nieuws is dat platforms zoals Cloudera Data Platform, SAP Data Hub en InfoWorks DataFoundry zijn ontworpen om data-organisaties te helpen bij het beheren, integreren en beheren van de toegang tot datarepositories die zijn opgeslagen in verschillende Big Data engines en op verschillende clouds.

Ik heb InfoWorks CEO Buno Pati kunnen spreken over het werken met data in een multi-cloud omgeving. Hij vertelde me: "Het leggen van een robuuste en flexibele basis voor enterprise data operations en orchestration is essentieel voor het succes van elke moderne enterprise data strategie. Deze systemen moeten ondernemingen in staat stellen om snel nieuwe analysetools te lanceren, de afhankelijkheid van hooggespecialiseerd talent te minimaliseren en naadloos hybride en multi-cloud-omgevingen te doorkruisen met een verscheidenheid aan executie-engines en opslagsystemen, zoals Hadoop, Spark en cloud-infrastructuur."

2. Volwassen mogelijkheden op Big Data platformen

CIO's zouden waarschijnlijk een zakwoordenboek kunnen gebruiken om alle Big Data-platformen die in populariteit toenemen, te definiëren. Terwijl Hadoop de eerste winnaar was in big data platformen, investeren bedrijven vandaag de dag in een mix van deze platformen, waaronder Apache Spark, Apache Hive, Snowflake, meerdere databases ondersteund op AWS, Azure en Google Cloud Platform, en vele andere.

Het gebruik van meerdere big data platformen zorgt voor grote uitdagingen voor CIO's omdat het aantrekken van data en analytisch geschoolde mensen zeer competitief is en het beheer van tal van platformen de operationele en veiligheidscomplexiteiten vergroot.

Hoewel veel bedrijven waarschijnlijk zullen consolideren naar minder dataplatformen als onderdeel van hun strategie, moeten ze ook diensten, tools, partnerschappen en training overwegen om betere ondersteuning te bieden over verschillende dataplatformen heen.

3. Investeren in een datacatalogus

Aangezien het onwaarschijnlijk is dat grote ondernemingen in staat zijn om data te centraliseren in één datawarehouse of datalake, wordt de noodzaak om een datacatalogus op te stellen strategisch gezien nog belangrijker.

Datacatalogi helpen eindgebruikers bij het zoeken, identificeren en leren van en meer te weten komen over datarepositories die ze kunnen gebruiken voor analyses, experimenten met machine learning en applicatie-ontwikkeling. Ze bieden ook een centraal punt om het toegangsbeleid te regelen, de status van gegevensbronnen te publiceren en samenwerking tussen eindgebruikers en deskundigen mogelijk te maken.

Cloudera, SAP en Infoworks hebben allemaal mogelijkheden voor datacatalogi als onderdeel van hun aanbod.

4. Selecteer het juiste data-integratieplatform

Terwijl tien jaar geleden de discussie nog ging over de vraag of er in een ETL-platform geïnvesteerd moest worden en zo ja, welke, is de vraag nu breder en strategischer. Dat komt omdat data-integratie vandaag de dag een breder scala aan gebruiksmogelijkheden bestrijkt die verder gaan dan de batchverwerking die ETL's ondersteunen. Tegenwoordig hebben veel organisaties

Eisen voor datastreaming voor IoT en andere realtime dataverwerking geïmplementeerd met platforms zoals Apache Kafka, Apache Spark en event-driven architecturen zoals VantIQ.

Vereisten voor de verwerking van document en andere ongestructureerde data geïmplementeerd in het MarkLogic Data Hub Platform of documentopslag zoals Apache Lucene, Apache Solr en MongoDB.

Behoeften aan datapreparatie voor datawetenschappers en business analisten die worden bediend met tools zoals Tableau Prep, Alteryx Designer en Trifacta Wrangler.

API-integratie met SaaS-platforms en bedrijfsgegevensbronnen gestroomlijnd met platforms zoals Boomi en MuleSoft.

Vereisten om de datakwaliteit te verbeteren en masterdatabronnen te creëren die worden uitgevoerd met platforms van Informatica, Talend, IBM, Reltio, Tamr en anderen.

Helaas is er geen one-size-fits-all platform dat al deze use cases kan ondersteunen. Bovendien kunnen data-integraties efficiënter worden geïmplementeerd en betrouwbaarder worden ondersteund door het selecteren van de juiste tool voor de betreffende taak. Dat betekent waarschijnlijk dat ondernemingen die brede data-integratiebehoeften willen ondersteunen, de behoefte zullen hebben om mogelijkheden aan te schaffen en om te leren gaan met verschillende data-integratieplatforms.

5. Stel proactief datagovernance in

Hoewel CIO's, CISO's en CDO's er de voorkeur aan geven om datagovernance vooraf vast te stellen voor nieuwe business mogelijkheden te ontdekken, is dat een onrealistische strategie. Bedrijven die analyses nodig hebben om datagestuurde besluitvorming en andere concurrentievoordelen mogelijk te maken, moeten snel handelen en dan kan het vooraf beschrijven van governance dat in de weg staan.

Dat is een zware pil voor leidinggevenden die zich bezighouden met de databescherming, het privacybeleid en vertrouwelijke informatie.

Het is echter mogelijk voor CIO's en CDO's om het databeheer parallel aan het gebruik van nieuwe tools, mogelijkheden en gegevensbronnen in te stellen. Het vereist investeringen in talent om inzicht te krijgen in de mogelijkheden van de datagovernance van de platforms waarin wordt geïnvesteerd en om procedures op te stellen voor het invoeren en beheren van wijzigingen in de databronnen.

Zonder deze disciplines zullen CIO's data-legacy oplopen, vergelijkbaar met de technische legacy die organisaties in de loop der tijd hebben opgebouwd.

Het goede nieuws is dat CIO's de mogelijkheden van datagovernance zullen zien in volwassen dataplatformen die zich richten op ondernemingen. Echter, het hebben van de technische mogelijkheden is slechts het begin en CIO's zullen technisch talent, trainingsprogramma's en veranderingsmanagementpraktijken nodig hebben om bedrijfsteams inzicht te geven in en te laten voldoen aan datagovernance.

Ik ben geen grote fan van de "data is de nieuwe olie"-analogie, maar laten we er even bij blijven. Oliemaatschappijen kopen niet slechts boorinstallaties en hebben op magische wijze een end-to-end mechanisme om olie efficiënt te vinden en naar raffinaderijen te verschepen. Het is gewoon niet zo eenvoudig, en dat geldt ook voor gegevensbeheer, analyse of machine learning.

Maar het is ook niet ontmoedigend, op voorwaarde dat organisaties op verantwoorde wijze investeren in platforms die voldoen aan hun use cases, investeren in talent en hun praktijken op het gebied van data-integratie, -beheer en -governance ontwikkelen.