-

Hadoop is tien jaar oud

Apache Hadoop, de belangrijkste technologie voor de verwerking van Big Data, is jarig. Hadoop kwam voort uit een ouder project voor de indexering van websites, maar werd in 2006 een apart project bij Yahoo. Inmiddels is Hadoop mainstream geworden. Van Microsoft tot Oracle en IBM, ook grote softwareleveranciers ondersteunen de technologie in hun producten.

Doug Cutting, de belangrijkste ontwikkelaar en visionair van Hadoop, blikte een dezer dagen terug op de tienjarige geschiedenis van Hadoop. In de dagen voor Hadoop gebruikten bedrijven vaak maatwerk om data te verwerken. Het toenmalige relational database management system (RDBMS) bleek echter niet geschikt voor het indexeren van het web. Daarom begon Cutting een project voor de ontwikkeling van een open source ‘web crawler’, robottechnologie om grote hoeveelheden gegevens te vergaren.

Om video's van Youtube te kunnen tonen, dienen analytische cookies en tracking cookies geaccepteerd te worden.

Cutting besloot al snel technologie van Google te adopteren, die had een eigen gedistribueerd bestandssysteem (GFS) met een executielaag (MapReduce) ontwikkeld. Rond 2005 was de ontwikkeling van het project onderbracht bij Yahoo. De naam werd Hadoop, naar een speelgoedolifant van Cuttings zoontje.

In 2007 draaide een eerste prototype op betaalbare hardware. Academische onderzoekers pakten het op, en in de loop der jaren kwamen er allerlei aanvullende projecten bij. Cutting zette zijn werk vanaf 2008 voort bij het bedrijf Cloudera, die als opdracht kreeg om de technologie onder te brengen bij grote ondernemingen.

Dat lijkt gelukt: traditionele databases zijn nog niet weg, maar voor de verwerking van ongestructureerde data is Hadoop inmiddels de standaard geworden. Het merendeel van de Fortune 500 bedrijven gebruikt Hadoop. Forrester Research noemt Hadoop zelfs onmisbaar voor ambitieuze organisaties.

Uiteraard lijkt origineel niet meer op de huidige versie. Verschillende kerncomponenten zijn vervangen of doorontwikkeld, zo is MapReduce al min of meer vervangen door Apache Spark. Nieuwe opslagsystemen als Apache Kudu zijn in ontwikkeling. Gedistribueerde dataplatforms als IBM Infosphere bevatten tegenwoordig een Hadoop-kern en breiden die uit met functionaliteit. Hadoop, schrijft Cutting, is klaar voor de ‘eeuw van data’.

hadoop-10th-birthday-infographic

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond