-

Zo maak je big data daadwerkelijk ‘big’

Je bent actief in een organisatie waar veel creativiteit aan campagnes wordt verwacht. Daarnaast ben je ook actief aan het werk met data. En je hebt inmiddels de beschikking over een aardige hoeveelheid data. Puristen zullen – terecht – zeggen dat een grote dataset niet gelijk staat aan big data. Deze vier stappen helpen om data slimmer in te zetten, ook zonder budget.

In werkelijkheid hebben we het bij big data over enorme hoeveelheden data, met grote snelheid toenemend en met een grote mate van diversiteit (definitie Gartner). 
Er is echter één probleem. Je organisatie is weliswaar super-enthousiast over je initiatieven, maar het ontbreekt aan een serieus budget om bepaalde tools aan te schaffen. Niet getreurd, met een beetje creativiteit en goede wil en zonder investering, kun je toch hele leuke dingen doen met data.

Stap 1: Welke informatie hebben we tot onze beschikking?

Het proces van verzamelen van data is betrekkelijk eenvoudig. Je bekijkt de tools die je tot je beschikking hebt en weet op basis van jouw ervaring vaak al heel goed wat voor klantdata je hebt. Nu we weten wat we hebben, kunnen we de data exporteren in gangbare formaten. Hier zou ik kiezen voor .csv,. txt of ‘good old’ Excel files. Bij het proces van dataverzameling, is het belangrijk meteen even vooruit te kijken naar het uiteindelijke doel. Je wilt namelijk alle relevante informatie meenemen in de exportbestanden, maar je wilt ook niet te veel informatie meenemen.

Stap 2: Wat willen we bereiken?

Normaal gesproken zou je verwachten dat het opstellen van de doelstelling de eerste stap zou zijn. In dit geval zou ik daar om praktische redenen kiezen om de doelstelling te bepalen nadat stap 1 is uitgevoerd, simpelweg omdat we op basis van de beschikbare data, kunnen kijken waar onze interesses naar uit gaan. Welke gegevens wil je koppelen? Wat is een eventuele vraag die je beantwoord wilt hebben? Denk ik deze fase ook na over de planning en deadlines. Als je weinig ervaring hebt, begin dan klein en beoordeel het resultaat. Daarna pak je een groter project aan, en zo verder.

Stap 3: Het echte werk

Nu begint het echte werk. Je wilt verschillende gegevensbronnen combineren, analyses doen en rapportages maken. Randvoorwaarde is dat we kosteloos opereren. Gelukkig kan dat tegenwoordig op met verschillende tools. Voor het opschonen van data heb je een goede tool nodig. Iedereen die wel eens met datasets heeft gewerkt, weet dat data-cleaning vaak  50 tot 75 procent van de totale tijd van een project/analyse in beslag neemt. Een goede open-source tool die je hierbij kunt gebruiken in Python Pandas. Wanneer je de Anaconda Distribution download, krijg je verschillende open source tools waarin je kunt werken. Daarnaast kun je gebruik maken van een Jupyter Notebook. In zo’n Notebook kun je input (code) en output (resultaat in de vorm van data of visuals) eenvoudig weergeven. Python Pandas geeft veel mogelijkheden data te filteren, te groeperen en te koppelen. Hierdoor kun je jouw verschillende datasets combineren en analyseren. Daarnaast is het erg eenvoudig om basale statistische informatie te verkrijgen, zoals correlaties tussen variabelen. Bovendien is het erg eenvoudig om gangbare formats te importeren en exporteren. Online is er ontzettend veel gratis trainingsmateriaal in de vorm van tutorials te vinden, waardoor je eenvoudig je skillset kunt uitbreiden. Kunst is hier om zo klein mogelijk te beginnen en gaandeweg de complexiteit te vergroten. Als je wat verder in de materie zit, kun je zelfs gebruik maken van de Machine Learning packages die Anaconda tevens gratis beschikbaar stelt.
Wanneer je data wat structureler wilt koppelen en vooral ook wilt vastleggen, is MySQL een leuke optie. MySQL is een gratis variant van de bekende SQL databases. Je kunt hier jouw data inlezen en koppelen. Kennis van SQL opdoen vergt wel wat inspanning, maar de meest basale mogelijkheden kun je jezelf binnen afzienbare tijd eigen maken. Hier is wederom leuk dat je oneindig veel gratis studiemateriaal kunt doornemen.

Stap 4: het kiezen van de vorm

Of je nu een mooie analyse wilt doen, of een presentatie wil houden, de vorm waarin jij jouw resultaten weergeeft, bepaalt voor een groot deel de impact van project. Datavisualisatie is een vak op zich, maar je kunt enkele vuistregels hanteren:
– Eenvoud is heilig. De ontvanger moet de boodschap in een oogopslag kunnen interpreteren.
– Gebruik niet te veel kleur.
– Visuals voor presentaties zijn niet gelijk aan die in een document. Simpel gezegd, als ik op 8 meter afstand naar een chart kijk, is dat anders dan wanneer ik een pdf document lees. Dat heeft implicaties voor onder meer lettergrootte, lijndikte.

Voor het rapporteren of visualiseren zijn ook voldoende gratis opties beschikbaar op de markt. Excel biedt meer mogelijkheden dan de meeste mensen beseffen. Je zult jouw publiek hiermee niet snel verbluffen, maar degelijk is het zeker.
Wat spannender maak je het al door jouw data te koppelen aan PowerBI. Deze tool heeft een gratis variant, waarbij je toch hele fraaie rapportages en dashboards kunt opstellen. De mogelijkheden om diverse bronnen te importeren en te koppelen zijn hier eindeloos.
Is jouw insteek een presentatie te geven, kijk dan eens naar presentatievormen in een Jupyter Notebook. Verras jouw publiek door eens wat anders te doen dan de standaard Powerpoint slides. De notebooks zijn eenvoudig in gebruik en bieden erg veel functionaliteit.

Klein beginnen en opschalen

Deze informatie biedt handvatten om aan de slag te gaan met data, ook als daar in eerste instantie geen budget voor vrijgemaakt kan worden. In veel gevallen zul je zien dat goede analyses en rapportages, in een mooie vorm gepresenteerd, vaak ook leiden tot meer interne betrokkenheid. Vaak kun je op deze manier klein beginnen en later opschalen naar geautomatiseerde oplossingen waar wel budget voor vrijgemaakt kan worden. Zo kun je aan de basis staan van een data-driven organisatie.

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond