Viele Aspekte beeinflussen die Entscheidung, vorhandene IT-Systemlandschaften funktional weiter auszubauen und zu modernisieren. Big-Data-Umgebungen etwa bieten eine hohe Flexibilität und Skalierbarkeit, um sehr große Datenmengen kosteneffizient zu erfassen und auszuwerten. Die Einführung von NoSQL-Datenbanken oder Hadoop, als typische Vertreter von Big-Data-Umgebungen, ist oft der Anlass für eine evolutionäre Weiterentwicklung der eingesetzten Applikationen.
Es gibt fünf Best Practices, die sich bei der Implementierung von Big-Data-Projekten bereits bewährt haben.
1. Die Ziele eines Geschäftsprozesses verstehen
Entsprechen langjährig genutzte Applikationen nicht mehr den Leistungserwartungen, entsteht schnell der Wunsch einer Migration auf ein anderes aktuelles Betriebssystem oder zumindest nach einer versionsmäßigen Erneuerung. Die geplante Einführung von Big-Data-Technologie sollte Anlass sein, zunächst einmal zu prüfen, ob und wie eine Applikation aktuell die Anforderungen der Anwender im Rahmen eines bestimmten Geschäftsprozesses unterstützt. In vielen Fällen bietet die Integration von Big-Data-Technologien zusätzliche Möglichkeiten, die betriebswirtschaftlichen Ziele einer Applikation genauer, schneller und umfassender zu erreichen.
2. Die benötigten Datenquellen ermitteln
Die Kenntnis der Ziele eines Geschäftsprozesses bietet eine gute Grundlage für eine bessere Beurteilung der dafür benötigten Daten und der Skalierbarkeit. Die Einführung von Big-Data-Technologien sollte daher auch als Anlass zu einer Ermittlung zusätzlicher Datenquellen dienen, mit denen sich die Effizienz von Geschäftsprozessen steigern lässt. Eine Applikation zur Analyse des Kundenverhaltens profitiert beispielsweise von Daten der Verkaufshistorie, von Daten aus dem Customer Service, von vorhandenen oder neu zu erstellenden Kundenprofilen oder der Auswertung von Social-Media-Aktivitäten und -Kommentaren.
3. Überprüfbare Performancekriterien definieren
Bei Big Data geht es immer um eine Leistungssteigerung, sei es eine schnellere Verarbeitung, die Einbeziehung größerer Datenmengen oder detailliertere Datenanalysen. Die Festlegung von Performancewerten ermöglicht einen Soll-Ist-Vergleich und ein frühzeitiges Gegensteuern bei Abweichungen. Das betrifft etwa schnellere Zugriffszeiten auf Daten oder die Unterstützung einer größeren Zahl gleichzeitiger Benutzer.
4. Skalierbarkeit berücksichtigen
Die Anforderung nach einer höheren Performance ist eng mit der Skalierbarkeit verbunden. Bei allen Überlegungen zur Verbesserung der Performance müssen auch die Auswirkungen auf die Skalierbarkeit beachtet werden. Theoretisch heißt "linear skalierbar", dass sich bei einer Verdopplung der CPU-Leistung oder der Speicherkapazität auch die doppelte Performance ergibt. In der Praxis hat die Skalierung der Speicherkapazität mehrere Dimensionen. Auch die physischen Speichersysteme zur Steuerung der einzelnen Festplatten und die CPU-Leistung müssen beispielsweise ausgebaut werden. Der weitere Ausbau erfordert daher eine Kostenanalyse der einzelnen Komponenten, um die angestrebte Performance betriebswirtschaftlich rechtfertigen zu können.
5. Den Bedarf an Datenintegration bewerten
Eine Steigerung der Performance und Skalierbarkeit bei einem wachsenden Datenvolumen sowie eine Berücksichtigung diverser Datentypen bedeuten gleichzeitig höhere Anforderungen bei der Datenintegration. In vielen Fällen hat es sich bewährt, in kleinen bis mittelgroßen Big-Data-Projekten die Datenintegration zu erproben sowie die damit verbundenen Prozesse und Architekturen zu etablieren, die dann auch auf größere Projekte übertragen werden können. Die Integration der Daten in eine Big-Data-Umgebung ist die eine Seite der Medaille, auch der umgekehrte Zugang sollte bedacht werden. Es sollte auch ein standardisierter Zugriff auf NoSQL-Datenbanken und eine Hadoop-Umgebung sichergestellt sein, damit Big-Data-Analysen auch von den vorhandenen Applikationen genutzt werden können.
Fazit zu den fünf Merkmalen eines gut funktionierenden Big Data-Systems
Bei der Implementierung von Big-Data-Technologien geht es immer um strategische Entscheidungen, von denen viele Geschäftsprozesse und Fachbereiche eines Unternehmens profitieren. Um eine hohe Flexibilität zu erzielen, sollten die eingesetzten Technologien strukturierte und unstrukturierte Daten unterstützen, eine hohe Verfügbarkeit bieten und plattformunabhängig einsetzbar sein - On-Premise, in der Cloud und in hybriden Architekturen. Sie bieten damit gleichzeitig einen wichtigen Hebel zur weiteren Modernisierung der langjährig genutzten Applikationslandschaften. (rw)