Datenanalysen waren über viele Jahrzehnte ein Thema, das in aller Regel nur Forscher, Softwareentwickler und die Verantwortlichen in den Unternehmen bewegt und interessiert hat. Das hat sich geändert. Nicht nur Ökonomen und IT-Experten reden heute über Big Data und die damit verbundenen aktuellen und noch vor uns liegenden Umwälzungen, die die Vielfalt heutiger Daten und die modernen Analysemöglichkeiten mit sich bringen. Längst diskutieren auch Geistes- und Sozialwissenschaftler, Politiker und Journalisten - teilweise sehr kontrovers - die vielfältigen Auswirkungen auf die Gesellschaft und jeden Einzelnen.
Auf der Habenseite für Big Data stehen neue Anwendungsideen - etwa zum schonenderen Umgang mit natürlichen Ressourcen, der intelligenteren Nutzung vorhandener Infrastruktur, zur Steigerung der Erträge in der Landwirtschaft und zu Fortschritten bei der Diagnose und Behandlung von Krankheiten. Viele Szenarien, die zukünftig mittels Datenanalysen möglich sein werden, sind heute jedoch noch nicht einmal angedacht - es herrscht Aufbruchsstimmung.
So mancher sieht aber auch eher die Risiken durch die Hoheit über die Daten und Tools seitens großer Konzerne, des Staates oder von Geheimdiensten. So ist es nicht verwunderlich, dass sich die diesjährige CeBIT unter der Überschrift "Datability" insbesondere Aspekte wie Nachhaltigkeit und Verantwortungsbewusstsein in Bezug auf Big Data als Leitthema vorgenommen hat. Der Schlüssel zum Verständnis von Chancen und Risiken durch Datenanalysen liegt in einer genauen Kenntnis der Möglichkeiten von Big Data Analytics - insbesondere auch, worin sie sich von den bisherigen Möglichkeiten unterscheiden.
Es geht nicht nur um die Datenmenge
Der Begriff Big Data hat sich im Markt angesichts seiner Griffigkeit etabliert, auch wenn über ihn eigentlich nur einer der wesentlichen Aspekte heutiger und zukünftiger Daten hervorgehoben wird - nämlich die Menge. Umfassender beschreiben die aus der englischsprachigen Literatur übernommenen und mittlerweile auch in Deutschland vielzitierten "3V" (volume, variety, velocity) das Neue an Big Data. Die Datenmenge (volume) war und ist sicher ein zentraler Treiber für viele der jüngeren Innovationen, ohne die viele Analysen schlicht aufgrund von langen Laufzeiten nicht möglich wären. Neue Anwendungen entstehen jedoch vor allem durch ein massiv verbreitertes Spektrum an Daten und Datentypen (variety) sowie aufgrund der erhöhten Verfügbarkeit und Nutzbarkeit von Daten für Analysen in Echtzeit (velocity).
Es ist insbesondere die Vielfalt der Daten, die - richtig kombiniert - ganz neue Fragestellungen sowie eine bessere Steuerung von Prozessen und Handlungen erlaubt. So lässt sich heute beispielsweise die Wirkung von Werbung sehr detailliert analysieren, indem Daten aus dem Onlineverhalten von Menschen (auf den Webseiten oder in der mobilen App eines Unternehmens, oder aber innerhalb sozialer Netzwerke) mit Informationen zur klassischen Offlinewerbung (TV, Radio, Print, Plakat) geschickt kombiniert werden. Wo es lange Zeit nicht als möglich galt, den Erfolg ganzer Kampagnen zu ermitteln, können Experten heute schon auf der Ebene eines einzelnen Werbespots, Internetbanners oder Plakatstandorts sehr präzise Aussagen zur Wirksamkeit machen.
Ähnlich liegt der Fall in anderen klassischen Anwendungsbereichen wie beispielsweise Absatzprognosen für den Handel. Wo früher nur grobe Modelle zur Abbildung saisonaler Schwankungen auf der Basis der Verkäufe früherer Jahre möglich waren, lassen sich heute durch mittlerweile durchaus zuverlässige Wetterprognosen auch sehr konkrete Aussagen über die Nachfrage der nächsten Tage und Wochen machen und Lagerbestände auf dieser Grundlage steuern. Beide Beispiele zeigen auch die Bedeutung von unternehmensexternen Informationen im Kontext Big Data.
Kritischer Faktor Performance
Ein entscheidendes Hindernis bei der Analyse großer Datenmengen war in der Vergangenheit die schlechte Performance. Klassische relationale Datenbank-Management-Systeme (RDBMS) bieten typischerweise zufriedenstellende Antwortzeiten nur bis zu einer Größe von einigen Dutzend Terabyte. Um das zu erreichen, sind jedoch vielfältige Performance-steigernde Maßnahmen (beispielsweise Indizes, Aggregate, OLAP-Würfel, Materialisierte Views, Vorberechnungen) erforderlich, die großen Aufwand mit sich bringen und zu Lasten der Flexibilität gehen. Hinzu kommt, dass RDBMS sich nur für die Speicherung und Analyse von strukturierten Daten eigenen. Text-, Bild-, Ton- und andere unstrukturierte Daten lassen sich zwar grundsätzlich auch dort ablegen, sind aber dort nicht mehr effektiv und schnell genug im Zugriff.
Es haben sich daher für die Analyse von Big Data eine Vielzahl neuer Technologien (allen voran In-Memory-Lösungen, Parallel-Architekturen, Hadoop, NoSQL-Datenbanken) entwickelt, die auch auf sehr großen und verschiedenartigen Datenbeständen schnelle Antwortzeiten ermöglichen sollen. Viele dieser Ansätze verzichten auf eine umfassende Vorverarbeitung und inhaltliche Aufbereitung der Daten, sondern legen sie lediglich technisch optimiert ab.
Die hohe Geschwindigkeit vieler dieser Technologien und die Beibehaltung möglichst vieler Datendetails erlaubt einerseits eine hohe Flexibilität bei Adhoc-Abfragen. Andererseits macht sie es in vielen Fällen auch möglich, komplette Datenbestände zu analysieren und sich nicht auf Stichproben (Samples) zu beschränken, wie es in herkömmlichen Datenanalysen typischerweise der Fall war. Selbst aus kleinen Stichproben lassen sich zwar grundsätzlich valide und übertragbare Muster erkennen, sofern sie qualitativ hochwertig sind, das heißt repräsentativ für den Gesamtdatenbestand sind.
In der Vergangenheit erwies es sich aber als nicht immer einfach, eine ordentliche Zufallsstichprobe zu erstellen, da selbst vermeintlich zufällig ausgewählte Datensätze unbewusste und unerkannte Korrelationen enthalten können. Außerdem gehen bei Stichproben durch die Eliminierung vermeintlicher Ausreißer auch viele weniger prominente Informationen verloren.
Es gibt zahllose Anekdoten von Analysten, die aufgrund falscher Stichproben auf statistische Muster gestoßen sind, die sich im Anschluss nicht auf andere Datenbestände übertragen ließen und daher nutzlos waren. Der Trend im Bereich Mustererkennung und Predictive Analytics geht heute tatsächlich eher dahin, möglichst komplette Datenbestände anstelle von Samples zu analysieren, um auf diese Weise mehr Details zu ermitteln und auch seltene Ereignisse beziehungsweise Muster mit einzubeziehen. Damit das möglich ist, muss jedoch nicht nur die Performance der zugrundeliegenden Datenablage stimmen. Da die Daten kaum noch aufbereitet werden, müssen die Analyse-Tools die Daten auch so nehmen, wie sie kommen. Das heißt vor allem, dass die entsprechenden Werkzeuge robust gegen vielfältige Qualitätsprobleme (zum Beispiel leere Felder, Tippfehler) innerhalb der Daten sein müssen. Auch sollten sie möglichst unempfindlich gegen zugrundeliegende statistische Verteilungen sein.
Anbieter verbessern ihre Werkzeuge
Einer der Vorreiter in dieser Hinsicht war sicherlich die Firma KXEN. Der Spezialanbieter, der 2013 von SAP übernommen worden war, verfügt schon seit über einem Jahrzehnt über Algorithmen, die auch mit unsauberen Daten ohne allzu viele Datenbereinigungen gute Ergebnisse liefern. Tatsächlich belegen aber die Ergebnisse der Data-Mining-Studien von mayato aus den vergangenen Jahren, dass mittlerweile alle wichtigen Anbieter - allen voran SAS und IBM SPSS - ihre Werkzeuge in dieser Hinsicht erheblich verbessert haben und über ähnlich leistungsfähige Algorithmen verfügen.
Hinzu kommen deutlich verbesserte Visualisierungsmöglichkeiten. Der Weg von den Daten zur Erkenntnis lässt sich mit moderner Analysesoftware deutlich verkürzen, was nicht nur Aufwand und Kosten reduziert, sondern den Ablauf der Analyse auch in ein Zeitfenster bringt, das es erlaubt, wiederum über neue Anwendungsgebiete nachzudenken. In vielen Fällen lassen sich Analysen tatsächlich vollständig automatisieren und die gefundenen Muster und Regeln einfach und schnell an neue Gegebenheiten anpassen. Dies führt beispielsweise im Bereich Betrugserkennung dazu, dass neue Maschen schneller als bisher erkannt werden können. Auch auf Veränderungen im Kundenverhalten, zum Beispiel durch das plötzliche Auftauchen eines Konkurrenzangebots, lässt sich so schneller reagieren.
Big Data Analytics erlaubt grundsätzlich nicht nur die Wiedererkennung von bereits bekannten Mustern und die Anwendung von Regeln in Echtzeit, die zuvor mit Hilfe von intelligenten Verfahren ermittelt worden sind. Es können heute vielmehr Systeme entwickelt werden, die sich kontinuierlich selbst optimieren, indem sie immer wieder neue Daten nach veränderten Zusammenhängen prüfen. Realtime Analytics erreicht damit eine neue Qualität. Der Mensch tritt als Analyst in den Hintergrund. Er überwacht den Analysemechanismus lediglich im Sinne eines Monitoring.
In dem Maße, in dem Systeme auch ohne menschliches Zutun funktionieren, tritt auch die Frage zunehmend in den Hintergrund, welche Ursachen und Kausalzusammenhänge hinter einem gefundenen Muster liegen. Was zählt, ist lediglich das Zutreffen einer Prognose und die Wirksamkeit einer Maßnahme. Eine Begründung, wieso dies der Fall ist, interessiert oftmals nicht mehr. Tatsächlich beruhen viele der Analysemodelle auch auf sehr komplexen Zusammenhängen mit nicht selten Dutzenden von Faktoren innerhalb der Daten. In solchen Fällen wären einfache Erklärungsversuche sowieso zum Scheitern verurteilt.
Welche Daten dürfen genutzt werden?
Doch welche Daten dürfen in Analysen mit einbezogen werden und damit beispielsweise potentiell zu einer Ungleichbehandlung von Menschen führen? Darf ein Unternehmen Geschlecht, ethnische Herkunft oder Alter eines Kunden oder Mitarbeiters überhaupt für Analysen heranziehen? Datenschutz und Gleichstellungsgesetze setzen hier grundsätzlich klare Grenzen. Versicherungen mussten bereits auf Unisextarife umstellen, obwohl statistische Risiken von Männern und Frauen in verschiedenen Sparten sich durchaus deutlich unterscheiden. Doch in vielen anderen Branchen und Anwendungsgebieten gibt es noch weite Graubereiche, die zukünftig kontrovers diskutiert werden dürften und auf eine klare Regelung warten.
Für strukturierte Daten gibt es mittlerweile eine Vielzahl von Ansätzen zur effektiven Anonymisierung. Auch wenn diese in der Praxis noch nicht überall Anwendung finden, erlauben sie im Prinzip die Verarbeitung und Analyse im Einklang mit dem Bundesdatenschutzgesetz. Für unstrukturierte Daten ist eine Anonymisierung dagegen oftmals nur schwer oder überhaupt nicht zu erreichen. Indirekte Personenbezüge innerhalb von Texten können beispielsweise so vielfältig sein, dass sie kaum vollständig eliminiert werden könnten. Auch zu einem Foto den formalen Personenbezug zu entfernen, reicht sicher in Zeiten sehr guter Gesichtserkennungssoftware nicht mehr aus. Auch bei strukturierten Daten kann der Verzicht auf die aufbereitende Verarbeitung für Analysen zu Problemen im Bereich Datenschutz führen. (ba/sh)