-

Dit is wat een data lake voor je bedrijf betekent

Wanneer je veel tijd doorbrengt met CIO’s ben je waarschijnlijk weleens het concept data lakes tegenkomen. Simpel gezegd zijn data lakes een verzameling aan ruwe data die door de gehele organisatie heen gebruikt worden. Ze bieden bedrijven de mogelijkheid om te profiteren van big data en de valkuilen van data silo’s te vermijden. 

Maar zoals bij elke andere grote technologische innovatie draait het allemaal om implementatie. Data lakes zijn dan ook niet voor ieder bedrijf de ideale oplossing. Data lakes behalen vaak hun doel niet door omliggende factoren. In dit artikel leg ik deze uitdagingen uit en hoe managers daar proactief op kunnen anticiperen. 

De belangrijkste uitdagingen zijn:
  1. Data loskoppelen van bedrijfsprocessen
  2. Organisatorische kwesties en werken in silo’s 
  3. Ongeduldigheid: gebrek aan doorzettingsvermogen en veerkracht
Hoe gaan we met deze uitdagingen om? 
  1. Ken je data. Breng de complete herkomst van alle data in kaart: welke originele bedrijfsprocessen en interacties hebben deze data gegenereerd? Waar kan het gevonden worden? Welke mensen binnen de organisatie kunnen dit weten?   
  2. Vorm volgt informatie. Data-driven teams moeten hun werk constant herwaarderen en reorganiseren, niet zozeer binnen een specifieke bedrijfsfunctie, maar op een manier die waardevolle informatieprocessen weerspiegelt.
Een korte discussie over digitalisering

Afgezien van de hype biedt de vakkundige exploitatie van data, analyses en AI duidelijke voordelen. Gezien de vrij recente ontwikkeling van deze vakgebieden kunnen de effecten nog niet volledig gemeten worden. Maar zonder de juiste tools om te monitoren wat er gebeurt, kan het digitaliseringsproces juist verbergen wat er binnen het bedrijf gaande is. 

Om het gedrag van klanten in een fysieke winkel beter te begrijpen kun je klanten, verkooppersoneel en managers interviewen. In de begindagen van e-commerce mistten klanten de persoonlijke aandacht die fysieke winkels boden. 

Het idee van Amazon om productiesuggesties te gaan vertonen was de eerste stap richting personalisatie. Moderne consumenten verwachten steeds meer gemak en persoonlijke diensten. Dit wordt mogelijk gemaakt dankzij de verzamelde data omtrent hun gedrag en door het gebruik van analysetools en AI, om zo voorkeuren beter te begrijpen en voorspellen. 

Hoewel digitalisering in eerste instantie leidt tot minder personalisatie en observatie, overtreffen deze kwaliteiten dankzij de juiste implementatie uiteindelijk de traditionele modellen.

AI en silos

Het is dus duidelijk dat data noodzakelijk is voor personalisatie, maar dit leidt direct tot een ander probleem. De data die wordt verzameld door een deel van de organisatie is namelijk vaak niet beschikbaar of toegankelijk voor andere delen van de organisatie. 

Deze data silo’s kunnen een optimale communicatie belemmeren en zorgen voor minder goede beslissingen, ongeacht de inspanningen van managers. Doordat iedere afdeling zijn eigen data verzamelt, kunnen beslissingen die de ene afdeling neemt om zaken te optimaliseren nadelig uitpakken voor andere onderdelen. 

Volledig inzicht dankzij data lakes

Als we een volledig 360 graden beeld willen krijgen van klanten hebben we daarom een manier nodig om heterogene en ongelijksoortige datasystemen te kunnen verwerken. Data lakes bieden hierin de oplossing.

Een data lake is een overkoepelende term voor technologieën die een zeer praktisch probleem oplossen: hoe kunnen we op een efficiënte manier alle data binnen ons bedrijf in kaart brengen? In plaats van alle data eerst zorgvuldig te harmoniseren en te transformeren in een normaal format, wordt in een data lake alle data vanuit zijn originele format uitgepakt en in dezelfde omgeving geplaatst (vaak in de cloud). Allerlei soorten van moderne high-performance tools kunnen vervolgens worden gebruikt om de data te verwerken. 

Een data lake geeft je op deze manier de mogelijkheid om meerdere invalshoeken voor je data te genereren, in plaats van dat je de data van iedere afdeling apart moet analyseren.

Toch is een data lake geen magische plek waar iedereen maar zijn data kan dumpen om vervolgens een datawetenschapper (zoals ikzelf) ermee te laten stoeien om tot een plan te komen. Wij noemen dat een ‘data moeras’ en voedt het verkeerde idee dat datawetenschappers op zoek gaan naar het dataequivalent van goud. 

Data is geen olie

Het concept van big data ontstond samen met digitalisering en is een verleidelijk modewoord voor stakeholders, vooral gezien de succesvolle inzet ervan door bedrijven als Amazon en Facebook. 

‘Data is het nieuwe olie’ is een metafoor die goed werkt wanneer we het hebben over data als de katalysator voor een nieuw industrieel tijdperk. Wanneer men het echter heeft over het gebruiken van data om een voordeel te behalen, valt deze metafoor uit elkaar. In tegenstelling tot olie is het verfijnen van data niet de enige noodzakelijke stap om waarde te creëren en is de aard van data zeer afhankelijk van de context. 

Data is geen specifieke grondstof. Ik zie data juist als een spoor waarmee een jager zijn uiteindelijke prooi kan traceren, in plaats van dat data zelf de prooi is waarop gejaagd wordt. Bedrijfsmatig wordt zo’n spoor gevormd door diverse bedrijfsprocessen, vaak begrensd tot marketing of inkoop. In plaats van geobsedeerd te zijn met data moeten we ons juist richten op het begrijpen van de processen die deze data genereren

Nog even dit

Klanten zijn niet geïnteresseerd in hoe een bedrijf georganiseerd is. Wat zij verwachten is personalisatie, snelheid en een vlekkeloze behandeling. Dit alles kan gerealiseerd worden door de informatiestromen binnen het bedrijf te begrijpen en daar naar te handelen. Een data lake kan op deze manier een katalysator zijn om organisatieprocessen te veranderen.

Over de auteur: Johan Himberg werkt als Chief Data Scientist bij Reaktor.

Deel dit bericht

1 Reactie

Frans Jan Boon - Add to Friends

Hallo Johan, goed artikel. Gelukkig verklaar je het wat misleidende kopje ‘Volledig inzicht dankzij data lakes’ later nader.

Ik kom nog iets te vaak bij bedrijven die hun data hebben gedumpt in iets wat op een data lake lijkt (je term ‘data moeras’ ga ik overnemen!) waar ik dan met grote moeite actionable insights uit kan halen. Benieuwd naar jou ervaringen daarin.

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond