Viele Aspekte beeinflussen die Entscheidung, vorhandene IT-Systemlandschaften funktional weiter auszubauen und zu modernisieren. Big-Data-Umgebungen etwa bieten eine hohe Flexibilität und Skalierbarkeit, um sehr große Datenmengen kosteneffizient zu erfassen und auszuwerten. Die Einführung von NoSQL-Datenbanken oder Hadoop, als typische Vertreter von Big-Data-Umgebungen, ist oft der Anlass für eine evolutionäre Weiterentwicklung der eingesetzten Applikationen.
Es gibt fünf Best Practices, die sich bei der Implementierung von Big-Data-Projekten bereits bewährt haben.
1. Die Ziele eines Geschäftsprozesses verstehen
Entsprechen langjährig genutzte Applikationen nicht mehr den Leistungserwartungen, entsteht schnell der Wunsch einer Migration auf ein anderes aktuelles Betriebssystem oder zumindest nach einer versionsmäßigen Erneuerung. Die geplante Einführung von Big-Data-Technologie sollte Anlass sein, zunächst einmal zu prüfen, ob und wie eine Applikation aktuell die Anforderungen der Anwender im Rahmen eines bestimmten Geschäftsprozesses unterstützt. In vielen Fällen bietet die Integration von Big-Data-Technologien zusätzliche Möglichkeiten, die betriebswirtschaftlichen Ziele einer Applikation genauer, schneller und umfassender zu erreichen.
2. Die benötigten Datenquellen ermitteln
Die Kenntnis der Ziele eines Geschäftsprozesses bietet eine gute Grundlage für eine bessere Beurteilung der dafür benötigten Daten und der Skalierbarkeit. Die Einführung von Big-Data-Technologien sollte daher auch als Anlass zu einer Ermittlung zusätzlicher Datenquellen dienen, mit denen sich die Effizienz von Geschäftsprozessen steigern lässt. Eine Applikation zur Analyse des Kundenverhaltens profitiert beispielsweise von Daten der Verkaufshistorie, von Daten aus dem Customer Service, von vorhandenen oder neu zu erstellenden Kundenprofilen oder der Auswertung von Social-Media-Aktivitäten und -Kommentaren.
3. Überprüfbare Performancekriterien definieren
Bei Big Data geht es immer um eine Leistungssteigerung, sei es eine schnellere Verarbeitung, die Einbeziehung größerer Datenmengen oder detailliertere Datenanalysen. Die Festlegung von Performancewerten ermöglicht einen Soll-Ist-Vergleich und ein frühzeitiges Gegensteuern bei Abweichungen. Das betrifft etwa schnellere Zugriffszeiten auf Daten oder die Unterstützung einer größeren Zahl gleichzeitiger Benutzer.
4. Skalierbarkeit berücksichtigen
Die Anforderung nach einer höheren Performance ist eng mit der Skalierbarkeit verbunden. Bei allen Überlegungen zur Verbesserung der Performance müssen auch die Auswirkungen auf die Skalierbarkeit beachtet werden. Theoretisch heißt "linear skalierbar", dass sich bei einer Verdopplung der CPU-Leistung oder der Speicherkapazität auch die doppelte Performance ergibt. In der Praxis hat die Skalierung der Speicherkapazität mehrere Dimensionen. Auch die physischen Speichersysteme zur Steuerung der einzelnen Festplatten und die CPU-Leistung müssen beispielsweise ausgebaut werden. Der weitere Ausbau erfordert daher eine Kostenanalyse der einzelnen Komponenten, um die angestrebte Performance betriebswirtschaftlich rechtfertigen zu können.
5. Den Bedarf an Datenintegration bewerten
Eine Steigerung der Performance und Skalierbarkeit bei einem wachsenden Datenvolumen sowie eine Berücksichtigung diverser Datentypen bedeuten gleichzeitig höhere Anforderungen bei der Datenintegration. In vielen Fällen hat es sich bewährt, in kleinen bis mittelgroßen Big-Data-Projekten die Datenintegration zu erproben sowie die damit verbundenen Prozesse und Architekturen zu etablieren, die dann auch auf größere Projekte übertragen werden können. Die Integration der Daten in eine Big-Data-Umgebung ist die eine Seite der Medaille, auch der umgekehrte Zugang sollte bedacht werden. Es sollte auch ein standardisierter Zugriff auf NoSQL-Datenbanken und eine Hadoop-Umgebung sichergestellt sein, damit Big-Data-Analysen auch von den vorhandenen Applikationen genutzt werden können.
Fazit zu den fünf Merkmalen eines gut funktionierenden Big Data-Systems
Bei der Implementierung von Big-Data-Technologien geht es immer um strategische Entscheidungen, von denen viele Geschäftsprozesse und Fachbereiche eines Unternehmens profitieren. Um eine hohe Flexibilität zu erzielen, sollten die eingesetzten Technologien strukturierte und unstrukturierte Daten unterstützen, eine hohe Verfügbarkeit bieten und plattformunabhängig einsetzbar sein - On-Premise, in der Cloud und in hybriden Architekturen. Sie bieten damit gleichzeitig einen wichtigen Hebel zur weiteren Modernisierung der langjährig genutzten Applikationslandschaften. (rw)
- Datenanalyse als Service
Analytics Tools aus der Cloud können den Einstieg in die Datenanalyse erleichtern. Sie erfordern keine Vorabinvestitionen im fünf- oder sechsstelligen Bereich und besitzen teilweise grafische Benutzeroberflächen, die es auch dem weniger versierten Anwender ermöglichen, Analyseprozeduren zu erstellen, die zu aussagefähigen Ergebnissen führen. Wir stellen fünf wichtige Big-Data-Tools vor, die Sie als Service aus der Cloud nutzen können. - AWS Elastic MapReduce
Seit der Version 4.1.0 von Amazon Elastic MapReduce lassen sich Cluster im laufenden Betrieb verkleinern. - Google Cloud Platform
Mit dem Google Cloud Launcher lässt sich ein Hadoop-Cluster mit wenigen Klicks einrichten. - Microsoft Azure
Ein Hadoop-Cluster ist in HDInsight von Microsoft in zirka 10 bis 15 Minuten verfügbar. - IBM Analytics
Beim Einrichten eines Hadoop-Clusters auf IBM Bluemix hat der Anwender die Wahl zwischen drei Cluster-Größen. - SAP HANA Cloud Platform
LubeInsights verknüpft Hadoop im SAP HANA und lädt nur aktuell benötigte Daten in die In-Memory-Datenbank.