Distributionen für Unternehmen

Alles, was Sie über Hadoop wissen müssen

Bernd Reder ist freier Journalist und Autor mit den Schwerpunkten Technologien, Netzwerke und IT in München.

Was Hadoop kostet

Laut einer Umfrage der Marktforschungsgesellschaft IDC unter Nutzern von Hadoop gaben rund 50 Prozent der Unternehmen zwischen 100.000 und 200.000 Dollar dafür aus, vorhandene Datenbestände in eine Hadoop-Infrastruktur zu überführen (Migration). Ein Teil davon entfiel auf einmalige Aufwendungen, etwa für die Entwicklung von Modulen für das erstmalige Konvertieren von Daten. Hinzu kommen laufende Kosten für die Infrastruktur. Pro Server, so IDC, müsse ein Unternehmen ungefähr 1600 Dollar im Jahr veranschlagen.

Immerhin gaben 82 Prozent der Befragten an, dass sich diese Investitionen nachweislich ausgezahlt hätten. Dennoch ist der Anteil derjenigen, die den Nutzen von Hadoop nicht quantifizieren können, mit 18 Prozent relativ hoch.

Potenzielle Schwachpunkte von Hadoop

In Online-Foren diskutieren Nutzer von Big-Data-Lösungen teilweise höchst kontrovers über die Vor- und Nachteile von Hadoop. Laut Guy Harrison, Executive Director R&D in der Software-Sparte von Dell, weist Hadoop in folgenden Bereichen Schwachpunkte auf:

• Backup: Von Ausnahmen abgesehen (MapR mit einer Snapshot-Funktion) sind bei Hadoop nur rudimentäre Backup- und Disaster-Recovery-Funktionen vorhanden. Das ist angesichts der strategischen Bedeutung von Big-Data-Projekten in vielen Unternehmen hoch problematisch. Die oft zitierte mangelnde Fehlertoleranz von Hadoop ist dagegen mittlerweile kein Thema mehr.

• Echtzeitfähigkeit: Die Auswertung von Daten in Echtzeit zählt nicht zu den Stärken von Hadoop.

• Verwaltung von Ressourcen: Sie ist aus Sicht des Dell-Managers ebenfalls verbesserungsfähig. So seien Funktionen, die eine Blockade von geschäftskritischen Operationen durch Ad-hoc-Anfragen verhindern, noch nicht ausgereift.

• Sicherheit: Dies ist einer der am häufigsten kritisierten Punkte. User, die sich an einen Hadoop-Cluster angemeldet haben, besitzen im Normallfall Zugang zu allen Daten, die dort lagern. In der Praxis ist es laut Harrison denn auch üblich, den Nutzern umfassende Zugriffsrechte auf Daten einzuräumen. Allerdings ist Besserung in Sicht, etwa durch das von Intel angestoßene Projekt "Rhino". Es stellt eine hardwareunterstützte Verschlüsselung und eine Mehrfaktor-Authentifizierung, inklusive Single-Sign-on, für die einzelnen Hadoop-Ressourcen bereit. Intel hat Rhino in seine eigene Hadoop-Distribution integriert. Zudem ermöglichen es Rhino und ein weiteres Projekt namens Accumulo, den Zugriff auf Daten bis hinab auf die Ebene eines Record (Datensatzes) zu steuern.

• Anbindung an externe Tools: Die Anbieter von Hadoop-Distributionen verwenden eigene, proprietäre Enterprise-Monitoring-Konsolen. Die Anbindung an andere Lösungen wie Openview und Foglight für die Überwachung der Performance ist nicht vorgesehen.

Hinzu kommt ein Faktor, der weniger mit Technik als mit der Situation auf dem Arbeitsmarkt zu tun hat: der Mangel an Data Scientists, also Fachleuten, die letztlich Big-Data-Analysen beherrschen.

Fazit

Hadoop ist für Unternehmen, die eine Big-Data-Lösung suchen, ein interessanter Ansatz. Für die Open-Source-Software spricht vor allem ihre hohe Flexibilität, bedingt durch die vielen Ergänzungen, die in der Hadoop-Ökosphäre zur Verfügung stehen. Allerdings liegt darin auch eine Gefahr: Wer aus den Basiskomponenten und Erweiterungen eine maßgeschneiderte Hadoop-Implementierung zusammenstellen möchte, benötigt das entsprechende Know-how und muss genügend Zeit für das Aufsetzen und Testen einplanen. Komfortabler sind daher für Unternehmen vorkonfigurierte Hadoop-Distributionen inklusive eines guten technischen Supports durch den Hersteller. (pg)

Zur Startseite