-

Big Data hype heeft iets van een rage op het schoolplein

De door ons achteloos achtergelaten digitale sporen bieden grote kansen voor onder meer marketeers, de gezondheidszorg en de inmiddels beruchte Amerikaanse National Security Agency en zijn Russische en Chinese equivalenten.

Door de komst van het internet, Facebook, maar ook diensten als Nike+ komt het zelf analyseren van grote hoeveelheden data voor velen binnen handbereik. En dat komt mooi uit, want in veel internetmarketeers schuilt immers een Big Brothertje. Big Data zal daardoor op menig verlanglijst voor de Sint niet ontbreken. Lekker grasduinen in klantgegevens, om zodoende betere resultaten te boeken. Niets mis mee, zolang de klant daarmee gebaat is.

De gedachte is dat wanneer meer data kan worden geanalyseerd, we steeds meer correlaties vinden die het klantgedrag verklaren. Dat dat een dolle boel kan worden, werd duidelijk toen een Canadees ziekenhuis na 28 jaar een correlatie dacht te hebben gevonden tussen het sterrenbeeld van een patiënt en de opnameduur.

Dat is van hetzelfde kaliber als het verhaal dat er minder kinderen worden geboren door de afnemende populatie van de ooievaar sinds de Jaren 60. Dat verband is statistisch gezien aanwezig, maar van het oorzakelijk verband ontbreekt ieder spoor. Een aanhanger van astrologie zal het eerstgenoemde voorbeeld overigens al weer heel anders uitleggen. En voordat je het weet, worden ook in online marketing gewilde – maar foutieve – aannames gedaan. Met alle gevolgen van dien.

De Big Data hype heeft iets van een rage op het schoolplein: niemand organiseert het, maar plots is het er. En iedereen heeft het er over. Wil je blijven meespelen, dan zul je je erin moeten verdiepen. Het gevolg: een wildgroei aan aanverwante cursussen, workshops en boeken. De grootste drijvende kracht  – met steeds grotere en onrealistisch wordende verkoopverhalen – zijn vaak de software-industrie of consultants, die er grof geld aan (proberen te) verdienen.

Ondanks de grote beloftes waarschuwen denkers als Nassim Taleb voor allerlei mogelijke denkfouten: ‘We kunnen niet alles doorgronden als we maar genoeg gegevens hebben”, concludeert Taleb. Oftewel, meer data leidt tot meer schijnpatronen.

Ander voorbeeld. De Amerikaanse econoom en slimmerik Orley Ashenfelter kon de prijs van een fles Bordeauxwijn beter voorspellen dan specialisten. Met simpelweg een paar variabelen: de streek en het weer in het betreffende oogstjaar. De wijnexperts hoonden het idee weg, beledigd door het succes van de eenvoud. Maar less was more. Ook hier.

Data alleen zegt helemaal niets. Meer ervan zegt zelfs nog minder. Slimme mensen die het in de juiste context en op betrouwbare wijze kunnen analyseren, die hebben recht van spreken. En kunnen een big toekomst tegemoet zien. Zeker in ons vakgebied.

*) Dit artikel is tevens gepubliceerd in het novembernummer van Emerce magazine 2013 (#126)

Deel dit bericht

3 Reacties

van Zanten

Wat wil de auteur nu eigenlijk zeggen met dit artikel? En van statistiek heeft hij blijkbaar ook geen kaas gegeten. De mening van Nassim Taleb en de voorbeelden waar hij mee komt stroken niet met wat er inmiddels aan waarde uit big data gehaald wordt. Het voorbeeld van het sterrenbeeld en de gevoeligheid voor bepaalde infecties heeft wel degelijk een verband. Dit verband is o.a. te herleiden tot de periode na de geboorte en het aantal infecties dat babies doormaken wat impact heeft op hun weerstand. Dat verschilt tussen zomer en winter (o.a. griepvirussen) maar is ook locatie gebonden. Wil je daar patronen in ontdekken heb je veel data nodig. Om die patronen die je ziet dan vervolgens aan sterrenbeelden te koppelen laat zien dat je vooringenomen bent en niet zuiver uitgaat wat uit de data komt. Taleb is nog van de oude garde en snapt niet wat de wet van de grote getallen is die momenteel wetenschappelijk onderzoek op zijn kop aan het zetten is. En de auteur van bovenstaand epistel helaas ook niet.

Duinkerke

De centrale boodschap is dat een correlatie iets anders is dan een causaal verband. De auteur wijst daarmee terecht op de voorzichtigheid die in acht genomen moet worden bij het trekken van conclusies uit analyses van big data.

Dick N.

De correlatie tussen dit artikel en Big Data is anders ook ver te zoeken. Zoveel tekst om te (naar het schijnt) willen zeggen dat men statistiek moet begrijpen en het verschil tussen correlatie en causaal verband moet kennen.

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond