Der Terminus Big Data ist nicht unumstritten, aber er hat sich nun schon seit etlichen Jahren etabliert und kennzeichnet ein eigenes IT-Gebiet. Ganz wörtlich lässt sich Big Data zunächst im Sinn von "großen Daten(mengen)" verstehen. In der Regel spricht man von Big Data, wenn das Volumen einer bestimmten abgrenzbaren Datenmenge in die Terabyte (1 Terabyte=1024 GB), Petabyte (1 Petabyte = 1024 Terabyte) und Exabyte (1 Exabyte = 1024 Petabyte) geht. Solche Datenmengen sind heute keine theoretischen Größen mehr, sondern kommen in der Praxis zusehends häufig vor.
Die Entwicklung hin zu Big Data ist kein isoliertes, etwa auf bestimmte Branchen oder Gebiete beschränktes Phänomen, sondern gilt branchenweit und global. Laut den Marktforschern von IDC durchbrachen die digitalen Informationen, die pro Jahr erzeugt oder kopiert werden, im Jahr 2011 erstmals die Zettabyte-Barriere und sind auf 1,8 Zettabyte angeschwollen. Zettabyte ist die nächste Einheit nach Exabyte und entspricht einer Billion Gigabyte an Daten.
Laut IDC ist die Informationsmenge in den letzten fünf Jahren um den Faktor fünf gewachsen. Ein Ende ist nicht abzusehen, im Gegenteil: Nach der IDC-Umfrage Big Data in Deutschland erwarten mehr als drei Viertel der deutschen Unternehmen in den nächsten Jahren einen jährlichen Datenzuwachs von bis zu 25 Prozent. 13 Prozent rechnen gar damit, dass ihr Datenberg um 25 bis 50 Prozent wächst.
Warum Big Data jetzt?
Warum schnellen die Datenmengen gerade in den letzten Jahren derart hoch? Dafür gibt es eine Reihe von Gründen. Weil mittlerweile faktisch "alles" digitalisiert wird, entstehen in zahlreichen Branchen neue Arten von Massendaten und Echtzeitdaten. Vor allem Maschinen und Rechner produzieren enorme Datenmengen: Eine modernes Flugzeug beispielsweise generiert heute in 30 Minuten bis zu 10 Terabyte an Daten. Bei 25.000 Flügen pro Tag entstehen damit Petabytes an Daten.
Auch neue Anwendungen fördern das Datenwachstum. Technologien wie Cloud Computing, RFID, transaktionale Systeme, Data Warehouses, Business Intelligence, Dokumentenmanagement- und Enterprise-Content-Management-Systeme sind IT-Applikationen, die zu Big Data hinführen.
Den entscheidenden Anteil an der Datenexplosion dürfte aber das Internet haben, kombiniert mit dem zunehmenden Anteil mobiler Geräte und vor allem den sozialen Medien wie Facebook, Twitter und Co. Bei Twitter etwa tummeln sich Millionen von Nutzern, die mindestens einen Account nutzen und oft mehrmals täglich Tweeds absetzen. Bei 140 Zeichen pro Tweed und bei der Geschwindigkeit, in der die Kurzmitteilungen abgesetzt werden, sorgt alleine Twitter für mindestens acht Terabyte an Daten - pro Tag.
Big Data = Volume + Variety + Velocity
Die riesige Datenmenge ist jedoch nur ein Aspekt von Big Data. Als weithin akzeptiertes Kriterium zur Charakterisierung von Big Data gilt die Formel "V3": Neben der schieren Datenmasse ("Volume") kommen als weitere Merkmale noch die Vielfalt ("Variety") und Geschwindigkeit ("Velocity") hinzu.
Mit "Vielfalt" ist die Anzahl der unterschiedlichsten Datenquellen gemeint, aus denen die Daten heute sprudeln, sowie die Verschiedenheit der Daten selbst. So müssen Unternehmen heute Daten aus den verschiedensten herkömmlichen und neueren Informationsquellen verwalten und integrieren, einschließlich interner und externer Ressourcen: Daten aus Sensoren etwa, aus der mobilen Kommunikation, von intelligenten Devices oder aus Social Media Kanälen und Social-Collaboration-Technologien.
Mit der Vielfalt an Quellen nehmen auch die Datenformate zu. Waren Daten bis vor wenigen Jahren noch gut strukturiert und ließen sich effizient und ohne großen Aufwand als Tabellen in relationalen Datenbanken speichern, sind mit der zunehmenden Komplexität der Datenquellen auch die Datenformate komplexer geworden.
Oft sind die Daten, wie sie heute bei den neuen Medien anfallen, völlig unstrukturiert. Unstrukturierte Daten sind Texte, Bilder, Audio- und Videofiles - also der Löwenanteil an Datentypen im Social-Media-Umfeld. Sie lassen sich schlecht in vorgegebene Schemata pressen.
Nimmt man noch einen Mischbereich an "semi-strukturierten" Daten hinzu wie E-Mails, die mit "Empfänger", "Absender" und "Betreff" eine gewisse Struktur haben, während, der Inhalt selbst strukturlos ist, dann haben wir es heute mit einem Mischmasch von strukturierten, semi-strukturierten und unstrukturierten Daten aus einer Vielzahl verschiedener Quellen zu tun.
Typische Datenarten heute
Strukturierte Daten: Daten, die in Tabellen und Strukturen von relationalen Datenbanken abgebildet werden wie Adressen, Produktlisten, Personalverwaltung etc
Semi-strukturierte Daten Daten, die teils strukturiert, teils unstrukturiert sind wie E-Mails: Solche Daten werden oft durch die Anwendung von Datenaustauschprogrammen zwischen Unternehmen erzeugt und basieren vielfach auf XML
Unstrukturierte Daten: Textdateien, PDFs, gescannte Post, Präsentationen, Bilder, Videos
Um solche Daten sinnvoll speichern, verwalten und analysieren zu können, sind neue Wege zu gehen - womit der dritte Aspekt von Big Data zum Tragen kommt: Die Geschwindigkeit ("Velocity"). Denn diese großen, aus unterschiedlichen Quellen und in unterschiedlichen Formaten vorliegenden Daten müssen möglichst schnell und effizient gespeichert und analysiert werden. Dies ist insofern eine Herausforderung als herkömmliche relationale Datenbank-Systeme dafür an ihre Grenzen stoßen.
- Big Data: Handlungsempfehlungen
Was sind die Hauptursachen für Fehlschläge? Und was kann das Projektteam dagegen unternehmen? - Big-Data-Vorhaben konsequent auf die Unternehmensstrategie ausrichten.
- Vollständigen Business Case mit Nachweis des Return on Investment erstellen.
- Detailliertes Pflichtenheft verfassen und pragmatischen Plan mit Reserven für Unvorhergesehenes ausarbeiten.
- Kommunikation zwischen allen Stakeholdern sicherstellen.
- Das System schrittweise einführen.
- Notwendiges Wissen vorab erwerben oder aufbauen.
Relationale Datenbanken
Relationale Datenbanken sind für häufige Transaktionen auf Datensatzebene oder für Szenarien mit kleinen bis mittleren Datenvolumen effizient nutzbar. Auf die Verarbeitung und Analyse von Datenmengen im Peta- oder gar Exabyte-Bereich sind sie nicht ausgerichtet. Vor allem aber lassen sich unstrukturierte Daten nicht oder nur mit Verrenkungen in die tabellenorientierten relationalen Datenbank-Systeme überführen.
Eine herkömmliche Datenbank wird unsagbar langsam, je mehr Daten zu verwalten sind und je mehr Relationen für eine Abfrage herangezogen werden. Die Performance, die für Abfragen mit akzeptablen Zugriffszeiten erforderlich ist, wird nicht erreicht. Zwar gibt es inzwischen Optimierungen für große Datenbanken, aber ab einer bestimmten Tiefe und Komplexität kann die beste Optimierung nicht mehr helfen.
Auch unstrukturierte Daten sind für herkömmliche Datenbanken ein Problem. Unstrukturierte Daten lassen sich wie erwähnt schwerlich ins Tabellenschema pressen. Tabellenorientierte Datenmodelle sind nicht darauf ausgerichtet, mit Unmengen an chaotischen Daten zu arbeiten. Und Social-Media-Daten aus Facebook oder Twitter eine relationale Struktur aufzuzwängen, ist kaum machbar.
Ein weiteres Problem: Im Gegensatz zur klassischen Business Intelligence, als es noch Stunden dauern konnte, um Berichte im Batchverfahren zu generieren, werden heutzutage Ad-hoc-Abfragen mit Analyseergebnissen möglichst in Echtzeit erwartet. Sie bilden die Grundlage für umgehende, proaktive Entscheidungen oder ermöglichen sogar ein automatisiertes Eingreifen. Die Ergebnisse solcher Analysen möchten heute nicht nur der Unternehmens-Chef, sondern auch Abteilungsleiter und andere Entscheidungsträger bis hin zum Sachbearbeiter möglichst zeitnah.