FAQ: Big Data

Hadoop - der kleine Elefant für die großen Daten

21.03.2012

Von

Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.

Alle Artikel des Autors

Email: Connect:

Woraus besteht Hadoop?

Rund um das Hadoop-Framework gibt es eine Reihe verschiedener Projekte, die unter dem Dach der Apache Software Foundation vorangetrieben werden. Hadoop selbst setzt sich aus folgenden drei Komponenten zusammen:

"Hadoop Common" bietet ein Toolset aus Grundfunktionen, das alle anderen Bausteine benötigen. Über eine Schnittstelle werden beispielsweise die Zugriffe auf die darunterliegenden File-Systeme gesteuert. Das Paket enthält auch die notwendigen Java-Archiv-(JAR-)Files und -Scripts, um Hadoop starten zu können. Ferner bietet Hadoop Common eine Schnittstelle für die Remote-Procedure-Call-(RPC-)Kommunikation innerhalb des Clusters sowie Bibliotheken für die Serialisierung von Daten. Außerdem finden Anwender hier den Sourcecode, die Dokumentation sowie Informationen, welche weiteren Unterprojekte für Hadoop verfügbar sind.
"Das "Hadoop Distributed File System" (HDFS) stellt ein hochverfügbares und leistungsfähiges Dateisystem dar, mit dessen Hilfe Anwender große Datenmengen speichern können sollen. Das System unterstützt nach Angaben der Entwickler Systeme mit mehreren 100 Millionen Dateien.
Hadoop enthält darüber hinaus eine Implementierung des von Google entwickelten MapReduce-Algorithmus. MapReduce bildet im Rahmen von Hadoop eine Art Software-Unter-Framework beziehungsweise Engine, die verschiedene Funktionen bereitstellt. Grundidee von Map-Reduce ist, Rechenaufgaben in kleine Teile zu zerlegen, auf eine Vielzahl von Rechnern zu verteilen (Map), dort extrem parallelisiert abzuarbeiten und die Ergebnisse wieder zusammenzuführen (Reduce).

Weitere Projekte bringen mehr Funktionen für Hadoop

Rund um Hadoop gibt es eine Reihe verschiedener Apache-Projekte, die verschiedene Zusatzfunktionen entwickeln und anbieten. Hier eine Auswahl:

Avro hilft Anwendern, Daten zu strukturieren und sicher in Containern abzulegen.
Cassandra ist eine verteilte NoSQL-Datenbank, die eine hohe Skalierbarkeit und Verfügbarkeit bieten soll. Die Software wurde von Facebook entwickelt und später an die Apache Software Foundation übergeben.
Chukwa sammelt Daten und erlaubt Anwendern das Monitoring großer verteilter Systeme.
HBase ist eine hochskalierbare verteilte Datenbank für das Handling umfangreicher Tabellen, mit denen sich große Mengen strukturierter Daten verwalten lassen sollen.
Hive ist ein Data Warehouse für Hadoop, das über eine SQL-ähnliche Syntax (HiveQL) Abfragen und Analysen ermöglicht.
Mahout bietet Anwendern verschiedene Algorithmen für das Data Mining in großen Datenbanken. Dabei lassen sich auch unstrukturierte Daten auswerten.
Pig stellt eine Plattform für die Auswertung großer Datenmengen zur Verfügung. Neben Analysewerkzeugen gibt es auch eine Infrastrukturebene, um das Tool anzupassen.
ZooKeeper bietet Funktionen und Services, um verteilte Applikationen zu koordinieren.

Gartners Trends 2012
Die in der Folge aufgelisteten Trends haben strategische Bedeutung für Unternehmen, weil sie die IT oder das Kerngeschäft künftig erheblich beeinflussen.
Media-Tablets
Angesichts der Vielzahl von Formfaktoren, Plattformen, Geräteklassen und Techniken im Mobility-Bereich sollten IT-Abteilungen die Rolle einer zentalen Planungsstelle aufgeben und lernen, die Vielfalt zu verwalten und gewinnbringend zu fördern.
Mobil-zentrische Applikationen und Interfaces
Smartphones und Tablets haben die Grundlagen der GUI-Entwicklung verändert: Touch, Sprache und Gesten lösen Icons, Menüs und Maus ab.
Internet der Dinge
Das Internet der Dinge kommt nun doch. Zunehmend werden Geräte, Maschinen und andere Objekte mit Intelligenz und Kommunikationstechnik ausgestattet.
App Stores und Marktplätze
70 Milliarden App-Downloads im Jahr 2014 erwartet Gartner. Die Masse macht der Privatkunde, doch Online-Marktplätze gibt es künftig vermehrt auch im Geschäftsumfeld.
Big Data
Datenmenge und Zahl der Formate steigen, gleichzeitig müssen Informationen schneller verarbeitet werden. Logische Data Warehouses lösen traditionelle Installationen ab.
In-Memory-Computing
Preisverfall und Verfügbarkeit von Flash-Speichern bereiten den Boden für das In-Memory-Computing.
Extrem energiesparende Server
Neue Anbieter bewerben ihre energiesparenden Server. Oft sind sie zu leistungsschwach und zu betreuungsintensiv.
Cloud Computing
Der Trend zur IT aus der Wolke wird kaum eine Branche verschonen. Die meisten Verantwortlichen treten nun in die Phase konkreter Projekte ein.

Data Center

Woraus besteht Hadoop?

Weitere Projekte bringen mehr Funktionen für Hadoop

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor