-

Loopt het bedrijfsleven alweer weg van Hadoop?

Opvallend nieuws uit de wereld van de Big Data: IBM gaat fors investeren in Spark, die door sommigen wordt gezien als een snellere opvolger van Hadoop.

De open source technologie wordt door IBM via de cloud aangeboden op zijn BlueMix platform. Het Amerikaanse bedrijf opent verder een Spark Technology Center in San Francisco.

Spark kan data analyseren die op computerclusters staan, en te groot zijn voor traditionele databases. Maar het grootste voordeel is dat data al kan worden geanalyseerd als het binnenstroomt, in het jargon: streaming data.

Om die reden zijn er steeds meer bedrijven die Spark omarmen. Ook Cloudera wil het aandeel van Hadoop in zijn dienstenaanbod terugschroeven ten faveure van Spark.

Hadoop komt eigenlijk voort uit werk dat al meer dan tien jaar terug door Google is ontwikkeld. En het heeft, ondanks beperkingen, jarenlang goed gewerkt. Maar de tijden zijn veranderd. Er komen steeds meer gegevens van webbrowsers, sensoren en mobiele telefoons. Spark levert analyses in seconden, niet in uren.

Diverse bedrijven zetten Spark al in: restaurantreserveringssysteem OpenTable bijvoorbeeld, Automatic Labs en ClearStory Data. Maar ook Airbnb en Pinsterest maken er gebruik van.

Maar analist Tony Baer van OnStrategies vindt dat je Spark en Hadoop helemaal niet kunt vergelijken. ‘Het zit een beetje in de menselijke natuur: weg met het oude, leve het nieuwe’, schrijft hij.

Volgens hem gaat Spark Hadoop niet vervangen. Spark kan zelfs op Hadoop draaien, net als op andere dataplatforms.

Spark is nog jong: het vindt zijn oorsprong in het zogenoemde AMPLab van UC Berkeley, bij de oprichters van wat nu Databricks heet. Zo’n 700 mensen sleutelen aan de broncode en daarmee is het een van de actiefste open source-projecten. Het is ook platformonafhankelijk: het werkt met Cassandra, SQL databases en een hoop andere toepassingen.

Spark zou eventueel het onderdeel MapReduce in Hadoop kunnen vervangen. Want waar MapReduce data naar de harde schijf wegschrijft, slaat Spark deze op in een cachegeheugen. Dat betekent snelheidswinst. Met andere woorden: Hadoop kan met wat hulpmiddelen best nog worden opgelapt. Christopher Nguyen van Adatao Inc zegt dat het vervangen van MapReduce door Spark hetzelfde effect geeft als overstappen van een fiets naar een auto.

Een ding staat volgens analist Nick Heudecker van Gartner vast: Hadoop was niet het eerste dataplatform, en Spark zal niet het laatste zijn.’

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond