-

Vijf open source Big Data-projecten die je nog niet kende

Big Data grijpt snel om zich heen, en aan software voor de analyse van grote hoeveelheden data is geen gebrek. De bekendste is uiteraard Hadoop. Maar er zijn zeker nog vijf grote projecten waarvan we beslist nog meer te horen zullen krijgen. ZDNet inventariseerde vijf open source-projecten, die alleen al onder auspiciën van de Apache Software Foundation vallen.

De bedoelde projecten zijn niet per definitie concurrentie voor Hadoop. ZDNet noemt Hadoop een metropool met heel wat buitenwijken, waar de burgemeester het niet altijd voor het zeggen heeft en de politieke opvattingen per wijk kunnen verschillen. Een Greater Hadoop dus.

Apache Flink
Heeft een fouttolerante streaming data engine en handelt batchoperaties als een datastroom. Het ondersteunt machine learning en is compatibel met Apache Kafka en HdBase, naast diverse andere Hadoop componenten. Flink lijkt op Spark, maar ondanks overlap is de dataverwerking toch even anders.

Apache Samza
Samza concentreert zich op streaming data verwerking, iets dat Storm, Spark en Flink natuurlijk ook kunnen, maar dan met een hoop extra’s. Het werkt bijvoorbeeld met Kafka en YARN direct uit de doos en kan worden geintegreerd met een hoop andere oplossingen. Kafka en Samza zijn beide ontwikkeld door LinkedIn, zelfs voordat het open source projecten waren. Vanwege de LinkedIn-achtergrond heeft Samza veel aandacht getrokken, maar Spark Streaming heeft het nog niet kunnen verdringen.

Ibis (Cloudera)
Ibis wordt grotendeels gefinancierd door Cloudera, en is bedoeld voor echte datawetenschappers met kennis van de programmeertaal Python. Ibis leunt daarbij op sterk Impala, een SQL-op-Hadoop project, dat ook door dienstverlener Cloudera wordt gepemperd. Het is daarvan echter niet afhankelijk. Python wordt veel toegepast voor machine learning en voorspellende analyses, wat Ibis extra interessant maakt.

Apache Twill
Twill is eigenlijk een toevoeging aan YARN, het onderdeel dat MapReduce ontkoppelt van Hadoop. MapReduce schrijft data weg naar de harde schijf, terwijl Spark en Flink dat efficienter oplossen. YARN maakt van Hadoop een meer generiek rekenplatform. Jammer genoeg is YARN nogal complex, en daarom is er Twill. Die maakt deze technologie toegankelijk voor Java ontwikkelaars. Niet verwonderlijk wordt het project geleid door Arun Murthy van Hortonworks, die ook achter YARN en Tez zit.

Apache Mahout-Samsara
Manout is een machine learning motor die eigenlijk niet eens zo nieuw is, maar onlangs wel is vernieuwd, onder meer met een rekencomponent genaamd Samsara. Waar in het verleden Manout eigenlijk een abstractielaag was van MapReduce, is het nu een schaalbare machine learning-tool. MapReduce wordt overigens nog steeds ondersteund.

 

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond