-

Big Data in de praktijk: hoe pas je dat toe?

Over Big Data bestaat veel verwarring, want hier is geen exacte definitie voor. In dit artikel zal ik je uitleggen wat Big Data is en hoe dit in de praktijk wordt toegepast. Daarnaast geef ik een aantal tips hoe u het maximale uit Big Data kunt halen.

1.0  Wat is Big Data?

Big Data is data wat de verwerkingscapaciteit van de traditionele databasesystem overschrijdt. De hoeveelheid data die verwerkt moet worden is te veel en groeit exponentieel.

Deze gegevens moeten op een andere manier verwerkt worden; namelijk d.m.v. een Big Data oplossing of ook wel noSQL genoemd.

De gegevens die in Big Data worden opgeslagen zijn meestal logfiles, chat files van sociale netwerken, banktransacties, GPS coördinaten, sensor data, analytics data enz.  Binnen Big Data is het belangrijk dat er een grote hoeveelheid aan gegevens kan worden opgeslagen,  vervolgens moet de data snel gepresenteerd worden aan de eindgebruiker.

1.1 Hoe verwerkt Facebook Big Data?

Facebook is een organisatie die afhankelijk is van Big Data, ze verwerken veel data en dit moet snel gepresenteerd worden aan de eindgebruiker. Per dag komt er een halve Petabyte aan data binnen in het Facebook Datacenter. Voor de duidelijkheid, 1 Petabyte staat gelijk aan 1000 TB, ofwel 1.000.000 GB. Facebook gebruikte in het verleden Hadoop om deze hoeveelheid data te verwerken, maar nu heeft Facebook een eigen systeem ontwikkeld genaamd; Corona .

Facebook werkt niet meer met Hadoop omdat het tegen zijn grenzen aanloopt. Door middel van Corona kan het systeem sneller data presenteren dan Hadoop, dit komt door de verbeterde Map Reduce functionaliteit van Corona. Door middel van Map Reduce worden de taken van een proces verdeeld over mappers.

Een voorbeeld hoe map reduce werkt: Het gras van 4 voetbalvelden moet binnen 20 minuten gemaaid worden van de manager (reduce) . Als 1 grasmaaier dit doet, is het nooit binnen 20 minuten klaar, wanneer 15 grasmaaiers (mappers) dit doen dan is het realistisch dat de klus binnen 20 minuten geklaard is. De manager (reduce) krijgt vervolgens het resultaat en presenteert dit aan de voetballers (eindgebruiker).

Map reduce zorgt er dus voor dat de processen verdeeld worden, op deze manier kan de data snel worden weergegeven aan de gebruiker.

1.2 Hoe Ermmedia Big Data heeft geïmplementeerd.

Een case waar wij aan hebben gewerkt, was het ontwikkelen van een meetsysteem. Alle bezoekersdata van een website (zoals IP, Browser Versie, Fingerprint)  moest worden opgeslagen, vervolgens moest deze data weer snel opvraagbaar zijn. Het bedrijf heeft 125.000 bezoekers per dag, het ging om een aanzienlijk volume. De ideale situatie was om gebruik te maken van Big Data.

Het script wat wij ontwikkeld hadden moest grote hoeveelheden data snel in een database plaatsen, want de performance van de website moest gegarandeerd worden.  De ideale oplossing was Redis, deze Big Data database Engine zorgt ervoor dat data snel verwerkt kan worden. Op de markt zijn er verschillende open-source databasesystemen die big data oplossingen aanbieden, ieder systeem heeft zijn eigen voordeel. Ik zal drie populaire engines opnoemen:

  • Mongo
    • Het beste te gebruiken wanneer je niet weet welke data in de toekomst wordt opgeslagen.
  • Apache Solr
    • Het beste te gebruiken wanneer er een behoefte is om data op te zoeken (zoekmachine database).
  • Redis
    • Het beste te gebruiken wanneer data snel verwerkt moet worden.

Om onze case op te lossen was Redis de beste manier om data te verwerken. Deze Big Data oplossing zorgt ervoor dat data snel verwerkt word. Wanneer je een groot volume aan data wil opslaan is het belangrijk om goed te plannen welke engine je nodig hebt.

2.0  Big Data implementeren binnen uw organisatie

Big Data kan binnen uw organisatie veel betekenen als je voor jezelf definieert welke informatie je wil meten. Met deze informatie kun je de benodigde aanpassingen doen. Ik geef hier 3 tips hoe u big data kunt toepassen binnen uw organisatie.

2.1 Welke data heb je nodig?

De eerste stap is het definiëren welke data je wil verzamelen. U kunt bijvoorbeeld meten hoe vaak gebruikers op de ‘Meer Info’ knop klikken, hoe vaak er server errors voorkomen, welke pagina’s een gebruiker bezoekt etcetera. Deze gegevens kunt u opslaan in de Big data database.

2.2 De analyse uitvoeren

Al de data die verzameld is kun je analyseren. Je kunt bijvoorbeeld analyseren hoeveel gebruikers een specifieke pagina op uw website hebben bezocht, welke knoppen zijn geklikt etcetera.  De verzamelde data kun je eventueel in grafieken weergeven. Hiervoor kun je een eigen tool ontwikkelen die verbinding maakt met de Big Data database.

2.3 Aanpassingen doorvoeren

Nu u weet welke acties gebruikers op uw website uitvoeren, kunt u de benodigde aanpassingen doorvoeren. Big Data is een handig meetinstrument om conversie te optimaliseren, alle opgeslagen data kunt u namelijk in de loop der tijd analyseren.

3.0  Big Data Tools

Een handige tool waarmee je data visualisaties kunt uitvoeren is Kibana. Dit is een opensource tool waarmee je data van de server kunt opslaan en analyseren. Denk aan het volgende:

  • Excepties, fouten, errors op uw website, die u zelf niet ziet maar de eindgebruiker wel
  • De gemiddeld laadtijd van diverse webpagina’s.
  • De performance van de database query’s
  • De Geheugen/ CPU van de server, en wanneer deze een piek heeft.
  • Wanneer de server een down time heeft.

Deze logfiles zijn verdeeld over diverse segmenten binnen de server. Het probleem is echter dat er technische kennis vereist is om deze files op te vragen en te analyseren. Met Kibana kun je deze data makkelijk opvragen. Kibana verzameld alle log data en plaatst deze in een centrale Big Data database.  Wanneer de data centraal is kunnen er analyses uitgevoerd worden.  Het is dan mogelijk om binnen de tool grafieken aan te maken, en op deze manier piekmomenten te ontdekken die met het blote oog moeilijk te lokaliseren zijn.

KibanaFiguur a: Een dashboard binnen Kibana, die je zelf kunt aanmaken.

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond