ChannelPartner
Alternatives Drucklayout:
› reiner Text
Link: https://www.channelpartner.de/a/big-data-system-oder-data-warehouse,2604664

Problemlage entscheidet

Big-Data-System oder Data Warehouse?

Datum:16.04.2013
Autor(en):Ilias Ortega
Rasant wachsende Datenmengen stellen Unternehmen vor neue Herausforderungen und vor allem vor die Frage: Mit welchem System soll die Datenflut gebändigt werden, um einen größtmöglichen Nutzen herauszuholen?

Vielen Big-Data-Lösungen fehlt noch die Marktreife.
Foto: Shutterstock/FreshPaint

Rasant wachsende Datenmengen stellen Unternehmen vor neue Herausforderungen und vor allem vor die Frage: Mit welchem System soll die Datenflut gebändigt werden, um einen größtmöglichen Nutzen herauszuholen?
von Ilias Ortega
Das Trendthema Big Data1 sorgt derzeit für Begeisterung, aber auch Verwirrung in manchen Anwenderunternehmen: Angesichts packender Berichte über den Einsatz von Big Data bei erfolgreichen Web-2.0-Akteuren wie Amazon.com und Facebook fragen sie sich: Könnten Big-Data-Verfahren nicht auch nutzbringend in der eigenen Organisation verwendet werden? Unter welchen Umständen ist Big Data zu empfehlen? Und für IT-Entscheider lautet die wesentliche Frage: Kann der Nutzen, den Big Data verspricht, auch mit den bereits vorhandenen, einfacheren Mitteln - sprich einem Data Warehouse2 - erreicht werden?

Data Warehouse

Data-Warehouse-Systeme enthalten Datenbestände, die periodisch aus Transaktionssystemen entnommen, gefiltert und zu Analysezwecken aggregiert werden. Häufig wird ein Data Warehouse in täglichen Ladevorgängen mit Daten befüllt und hat deshalb eine Latenzzeit, was die Aktualität der Daten betrifft, von einem Tag. Die Pivottabelle ist das am meisten benutzte Analyseinstrument im Umfeld von Data Warehousing.
Oft stellen Pivottabellen die Ausprägungen quantitativer Größen gemäß qualitativen Kriterien tabellarisch dar. Ein typisches Beispiel sind nach Produkten und Regionen gegliederte Umsätze. Auch der Einsatz anderer statistischer Verfahren - Stichwort Data Mining3 - ist im Data Warehouse möglich, jedoch nicht so verbreitet wie die Analyse mit Pivottabellen. Der Hauptgrund dafür sind die aggregierten, grobkörnigen Daten, die statistisch lohnende Eigenschaften ausblenden und darauf basierende statistische Analysen so ausschließen. Ein weiterer wichtiger Grund ist die Komplexität der Data-Mining-Verfahren.

[Hinweis auf Bildergalerie: ] gal1

Big Data und Big Data Analytics

Die Definitionskriterien von Big Data sind je nach Quelle unterschiedlich. In einem sind sich jedoch alle einig: Bei Big Data handelt es sich um Datenmengen, die mit herkömmlichen Mitteln nicht mehr effizient zu verwalten sind. Dazu gehören nicht aggregierte, in Echtzeit ermittelte Daten, die beispielsweise aus Transaktionssystemen, wissenschaftlichen Versuchen, Simulationen oder Sensoren stammen.

Neben Big Data hat sich der Begriff Big Data Analytics etabliert. Letztere umfassen analytische Verfahren, um Erkenntnisse aus großen Datenmengen zu gewinnen. Das Besondere: Methoden aus Statistik, Marketing und Informationstechnik werden bei Big Data Analytics nutzbringend verschmolzen. Wann ist ein Data Warehouse einem Big-Data-System ebenbürtig oder sogar vorzuziehen? Die nachfolgenden Einsatzszenarien geben eine Antwort.

  1. Big-Data-Systeme setzen Mustererkennung ein, um Trends und Muster rechtzeitig zu identifizieren sowie bislang unbekannte oder vermutete Beziehungen zwischen einzelnen Parametern zu entdecken. Systeme, mit denen sich Zeitreihen auf Anomalien prüfen lassen, werden beispielsweise dazu verwendet, potenziellen Kreditkartenbetrug in Echtzeit aufzudecken. Damit lassen sich tausende Kreditkartentransaktionen pro Sekunde sofort kontrollieren. Im Gegensatz zu herkömmlichen Data Warehouses sind Real Time4 Data Warehouses aber anspruchsvoll und stellen daher in der Praxis eher die Ausnahme dar. Durch die Datenaggregation werden die Daten grobkörniger, so dass mit Data Warehouses nur eingeschränkte statistische Analysen möglich sind. Die Folge: Die Erkennung von Trends, Mustern und Zusammenhängen in Data Warehouses bleibt im Resultat eher grob und auf längere Latenzzeiten beschränkt.

  2. Die Feinkörnigkeit und die kurzen Latenzzeiten der Datenbestände von Big Data bilden wichtige Voraussetzungen zur Segmentierung in Echtzeit, wie zum Beispiel bei Online-Einkäufen. Verbreitet ist die Bildung von Kundensegmenten, etwa um individuelle Angebote für komplexe Produkte zu erstellen - zum Beispiel Lebensversicherungen. Data Warehouses bieten ebenfalls die Möglichkeit zur Bildung von Segmenten. Diese sind allerdings grobkörniger und haben eine längere Latenzzeit als die Segmente von Big-Data-Systemen.

  3. Monitoring5 stellt aufgrund der enormen Datenmengen eine der Hauptanwendungen von Big Data dar. Mit Real Time Monitoring können beispielsweise Probleme mit komplexen Anlagen und Transportmitteln frühzeitig erkannt und Gegenmaßnahmen ergriffen werden. Darüber hinaus lassen sich durch die Kombination von Monitoring und Mustererkennung Frühwarnsysteme realisieren. Aufgrund ihrer Grobkörnigkeit und langen Latenzzeiten sind Data Warehouses jedoch nur bedingt dafür geeignet - Echtzeitsysteme sind hier die bessere Wahl.

  4. Empfehlungssysteme haben das Ziel, Größen wie den Umsatz gezielt zu beeinflussen. Dazu werden aus bestehenden Daten in Echtzeit Empfehlungen abgeleitet. Unternehmen wie Amazon.com und Facebook empfehlen ihren Nutzern gezielt weitere Bücher beziehungsweise Freunde. Sofern die Datenbestände nicht allzu groß sind, um vertretbare Antwortzeiten zu erzielen, sollte die Möglichkeit, ein Empfehlungssystem auf Basis eines Data Warehouse zu betreiben, weiter erörtert werden.

[Hinweis auf Bildergalerie: Big Business dank Big Data?] gal2

Big Data oder Data Warehouse?

Diese Beispiele zeigen, dass große Datenmengen, Feinkörnigkeit sowie kurze Latenzzeiten für Big-Data-Verfahren sprechen. Andererseits lassen sich Anwendungen, die auf den ersten Blick Big Data vorbehalten sind, sehr wohl auch mit einem Data Warehouse erfüllen. Nachteile sind hier jedoch die eingeschränkte Datenmenge, die Grobkörnigkeit und die längere Latenzzeit. Auch die Komplexität der statistischen Verfahren, die den Kern der Anwendungen ausmachen, ist von entscheidender Bedeutung. So lassen sich Analysen mit Pivottabellen im Data Warehouse unkompliziert via Drag and Drop vornehmen. Statistische Vorkenntnisse sind in der Regel nicht erforderlich. Verfahren wie Mustererkennung, Segmentierung, Monitoring und Empfehlungssysteme setzen hingegen Statistikkenntnisse voraus.

Big Data oder DW: Acht Schritte bis zur Einführung

Die Entscheidung für Big Data oder ein Data Warehouse wird am besten im Rahmen einer schrittweisen Problemlösung getrofffen:

  1. Identifikation des Problems, das mit Big Data oder einem Data Warehouse zu lösen ist.

  2. Erarbeitung der statistischen Lösung.

  3. Ermittlung der erforderlichen Daten: Menge, Körnigkeit und Latenz.

  4. Entscheidung über die optimale technische Lösung: Big Data oder Data Warehouse.

  5. Ermittlung des Nutzens.

  6. Falls der Nutzen überzeugt: Betrieb eines Pilotprojekts.

  7. Nach Erfolg des Pilotprojekts: Schulung in Statistikverfahren und Einführung der Lösung.

  8. Laufende Beurteilung und Weiterentwicklung der Lösung.

 

IT-Entscheider müssen Aufwand und Nutzen beider Lösungen einander gegenüberstellen. Der Ertrag zeigt sich oft in Form von erhöhtem Umsatz, geringeren Betriebskosten oder gesteigerter Produkt- und Servicequalität. Doch die Kosten sollten keinesfalls außer Acht gelassen werden. Dazu zählen vor allem Investitionen für Hard- und Software, Schulungs- und Einarbeitungskosten sowie Einführungs- und Betriebsausgaben. Auch gilt es zu bedenken, dass Big-Data-Lösungen vielfach die Reifephase für den Markt noch nicht erreicht haben - technische Standards entstehen zum Teil erst.

Die Anwendung von statistischen Verfahren, bei Big Data wie bei Data Warehouses, setzt Fachwissen voraus. Das ist nicht in jedem Unternehmen vorhanden und muss Entwicklern, Sachbearbeitern und Managern oft erst vermittelt werden. Auch die Anwendung von Statistikverfahren ist in beiden Fällen anspruchsvoll. Daher sollte man diese Verfahren schrittweise einführen. Ein internes Kompetenzzentrum für die Anwendung statistischer Verfahren sollte die Projekte unterstützen.

Die technischen Einzelheiten von statistischen Verfahren wie zum Beispiel Empfehlungssystemen werden von Unternehmen oft geheim gehalten oder nur in groben Zügen nach außen kommuniziert. Newcomer müssen sich deshalb das Grundlagenwissen selbst aneignen und die Lösung bestehender Probleme angehen, ohne die praktischen Details bereits vorhandener Lösungen zu kennen.

[Hinweis auf Bildergalerie: Top100 Business Intelligence] gal3

COMPUTERWOCHE Marktstudien zum Thema ECM

  • ECM Marktübersicht 2012, Preis: 129,00 Euro7

  • ECM Kundenmonitor 2011, Preis: 399,00 Euro8

  • ECM Marktpotenzialanalyse 2011, Preis: 1.950,00 Euro9

 

Pilotprojekte helfen planen

Der finanzielle und zeitliche Aufwand für die Einführung der neuen Lösung darf nicht unterschätzt werden. Um den Aufwand zuverlässig planen zu können, sollten erste Erfahrungen in Pilotprojekten gesammelt werden. Deren Mitarbeiter sollten jeweils für relevante und klar abgesteckte Probleme zuständig sein.

Zu Beginn sollten zudem möglichst einfache statistische Verfahren zum Einsatz kommen, um damit das erforderliche Know-how allmählich aufzubauen. Aus den Pilotprojekten gewonnene Erkenntnisse helfen bei der schrittweisen Einführung. Anschließend gilt es, die eingeführte Lösung kontinuierlich zu beurteilen und weiterzuentwickeln.
(Der Beitrag wurde von der CP-Schwesterpublikation Computerwoche6 übernommen / rb)

[Hinweis auf Bildergalerie: Die vier Herausforderung von Big Data] gal4

Links im Artikel:

1 https://www.computerwoche.de/schwerpunkt/b/Big-Data.html
2 https://www.computerwoche.de/schwerpunkt/d/Data-Warehouse.html
3 https://www.computerwoche.de/schwerpunkt/d/Data-Mining.html
4 https://www.computerwoche.de/software/bi-ecm/2506927/index.html
5 https://www.computerwoche.de/schwerpunkt/m/Monitoring.html
6 https://www.computerwoche.de/
7 https://www.computerwoche.de/marktstudien
8 https://www.computerwoche.de/marktstudien
9 https://www.computerwoche.de/marktstudien
10 http://www.bigdata12.de/

Bildergalerien im Artikel:

gal1 

4 Kriterien, die für Big Data kennzeichnend sind (Quelle: IDC, 10/2012)

Foto: IDC

Big Data Technologie-Stack (Quelle: IDC, 10/2012)

Foto: IDC

Permanentes Datenwachstum (Quelle: IDC, 10/2012)

Foto: IDC

Datenwachstum aus unterschiedlichsten Quellen (Quelle: IDC, 10/2012)

Foto: IDC

Einschätzungen der Anwender zum Datenwachstum (Quelle: IDC, 10/2012)

Foto: IDC

Herausforderung bei Datenmanagement und Datenhaltung (Quelle: IDC, 10/2012)

Foto: IDC

Technologische Herausforderungen beim Datenmanagement(Quelle: IDC, 10/2012)

Foto: IDC

Was ist neu an der Big-Data-Technologie? (Quelle: IDC, 10/2012)

Foto: IDC

Neue Generation von Technologien und Architekturen(Quelle: IDC, 10/2012)

Foto: IDC

Big Data: Lösungen und Technologie (Quelle: IDC 10/2012)

Foto: IDC

Big Data - Herausforderungen aus Sicht der IT-Entscheider(Quelle: IDC, 10/2012)

Foto: IDC

Potenzial von Big Data aus Business-Sicht (Quelle: IDC, 10/2012)

Foto: IDC

Big-Data-relevante Geschäftsbereiche (Quelle: IDC, 10/2012)

Foto: IDC

Organisationsmodelle für Big Data (Quelle: IDC, 10/2012)

Foto: IDC

Welche Anbieter bevorzugen Anwender bei der Umsetzung von Big-Data-Projekten? (Quelle: IDC, 10/2012)

Foto: IDC

Wie groß sind 1 Zettabyte? (Quelle: IDC, 10/2012)

Foto: IDC

gal2 Big Business dank Big Data?gal3 Top100 Business Intelligence

Top100-2012 Business Intelligence
Top100-2012 BI

Auch im BI-Segment sind die Verhältnisse klar. SAP liegt in Deutschland...

genauso unangefochten wie in Emea...

... und weltweit an der Spitze.

Auch die Zusammensetzung der Top-Anbieter verändert sich in den verschiedenen Regionen nicht wesentlich.

Fast die gleichen Unternehmen sind in Deutschland, Emea und weltweit vertreten.

Ausnahmen sind Corporate Planning, Tibco und Information Builders.

gal4 Die vier Herausforderung von Big Data

Die vier Herausforderungen von Big Data
Das Thema Big Data befasst sich eigentlich mit vier Herausforderungen:
Foto: fotolia.com/pixel_dreams

Die schiere Menge:
Das für Unternehmen relevante Datenvolumen steigt weiter drastisch an. Heute schon werden Datenmengen im Terabyte-Bereich analysiert, in Kürze dürften Petabyte und Exabyte auf der Agenda stehen.
Foto: Emeraldphoto - Fotolia.com

Der Zeitdruck:
Analysen der gewaltigen Datenberge sollten idealerweise in Echtzeit zur Verfügung stehen. Denn die Unternehmen stehen vor der Aufgabe, dass sie zeitnah auf Marktänderungen reagieren müssen.
Foto: granata68 - Fotolia.com

Die mangelnde Struktur:
Die Analysen müssen immer häufig Datenquellen mit kaum strukturierten Beständen berücksichtigen. Das heißt: die Komplexität der Datenanalysen steigt. Neben den bekannten Datenquellen, etwa den vorhandenen ERP-Systemen, kommen neue hinzu. Dazu zählen Daten aus M-to-M-Applikationen, also beispielsweise Sensordaten, Daten aus On-Board-Systemen, RFID-Daten aus der Logistikkette, aber auch Daten aus Weblogs und Social-Media-Plattformen etc.
Foto: Gina Sanders, Fotolia.com

Die wachsende Anwenderzahl:
Die potenziellen internen und externen User werden immer mehr. Sie kommen beispielsweise über Self-Service-Portale, die im Web zugänglich sind.
Foto: imageteam/Fotolia.de


IDG Tech Media GmbH
Alle Rechte vorbehalten. Jegliche Vervielfältigung oder Weiterverbreitung in jedem Medium in Teilen oder als Ganzes bedarf der schriftlichen Zustimmung der IDG Tech Media GmbH. dpa-Texte und Bilder sind urheberrechtlich geschützt und dürfen weder reproduziert noch wiederverwendet oder für gewerbliche Zwecke verwendet werden. Für den Fall, dass auf dieser Webseite unzutreffende Informationen veröffentlicht oder in Programmen oder Datenbanken Fehler enthalten sein sollten, kommt eine Haftung nur bei grober Fahrlässigkeit des Verlages oder seiner Mitarbeiter in Betracht. Die Redaktion übernimmt keine Haftung für unverlangt eingesandte Manuskripte, Fotos und Illustrationen. Für Inhalte externer Seiten, auf die von dieser Webseite aus gelinkt wird, übernimmt die IDG Tech Media GmbH keine Verantwortung.