Dass Datenanalysen komplex und zeitaufwendig sein können, ist weithin bekannt. Wie man die Arbeit mit der richtigen Tool-Auswahl erleichtert, zeigt eine Studie des BI-Analysten- und Beratungshauses Mayato.
von Peter Neckel (Analyst beim Beratungshaus mayato in Berlin.)
Für viele Unternehmen spielt das Customer-Relationship-Management (CRM) heute eine Schlüsselrolle: Hier wird entschieden, welche bestehenden Kunden in welcher Form betreut werden, welche potenziellen Kunden wie angesprochen und welche ehemaligen Kunden zurückgewonnen werden sollen. Die Beantwortung dieser Fragen ist von strategischer Bedeutung und entscheidet wesentlich über den Erfolg des gesamten Unternehmens.
Für die Umsetzung der Basisstrategien Kundenneugewinnung, -bindung sowie -rückgewinnung sind jedoch umfangreiche Informationen über das Kundenverhalten erforderlich. Diese können zum Großteil aus intern bereits vorhandenen Daten über die Kundenhistorie gewonnen werden. Da es sich meist um große Datenbestände handelt, in denen sich die relevanten Informationen oft in umfangreichem "Datenrauschen" verstecken, sind automatisierte Analysewerkzeuge gefragt. Die Analysemöglichkeiten unternehmensinterner Datenbestände sind zwar heute dank eines großen Angebots an Werkzeugen (aktuell über 150) so vielfältig wie nie zuvor - die Entscheidung für das richtige Tool fällt jedoch umso schwerer.
Testszenario Churn Prediction
Für die diesjährige Ausgabe der Mayato-Data-Mining-Studie wurde daher ein praxisnahes Analyseszenario aus dem Bereich Kundenrückgewinnung (Churn Prediction) erarbeitet: Ein großer Online-Versandhändler möchte Erstbesteller, die nach einer definierten Zeitspanne keine Folgebestellung tätigen, durch gezielte Aktionen zu einem Wiederkauf anregen. Dabei sollen nur die Kunden einen Einkaufsgutschein erhalten, bei denen mit hoher Wahrscheinlichkeit davon auszugehen ist, dass sie ohne diesen Anreiz keine Bestellung tätigen würden.
Diese Kunden sollen auf der Basis der vorliegenden Kundenhistorie (Transaktionsdaten von Stammkunden, Gelegenheitskäufer und abgewanderte Kunden) mit Hilfe eines Prognosemodells vorhergesagt werden. Dazu wurden neben etablierten Methoden wie Entscheidungsbäumen auch neue Prognoseverfahren wie Support Vector Machines (SVM) eingesetzt und jedes Tool separat auf Praxistauglichkeit und Prognosequalität geprüft.
Kundenverhalten errechnen
Hauptziel ist dabei, auf Basis der errechneten Prognosen gezielt die abwanderungsgefährdeten Kunden zurückzugewinnen und zu binden. Zentrale Bezugsgröße ist die Kundenbeziehung, die vom Unternehmen aktiv gesteuert werden sollte. In welchen Entwicklungsstufen die Beziehung zum Kunden typischerweise verläuft, verdeutlicht die Grafik.
Hier sind alle aktuellen und potenziellen Kunden nach der Reihenfolge ihrer Loyalität zum Unternehmen aufsteigend angeordnet. Ziel ist jeweils, sie möglichst viele Schritte nach oben zu führen. Kunden, die sich auf verschiedenen Stufen befinden, sollten unterschiedlich angesprochen werden: Ein Produktinteressent muss anders umworben werden als ein Mehrfachkäufer, der das Unternehmen bereits kennt. Auch dazu lassen sich die Ergebnisse der Data-Mining-Prognosemodelle sehr gut nutzen.
Anhand des beschriebenen Szenarios wird der gesamte Data-Mining-Prozess im Test durchlaufen. Ein derart aufwendiges Testkonzept liefert wertvolle praxisrelevante Fakten und Erkenntnisse im direkten Vergleich, die nicht aus den Produktbeschreibungen der Tool-Hersteller hervorgehen.
Tools im Test
Die Bewertung selbst stützt sich auf eine breite Anzahl von Einzelkriterien. Sie decken sowohl Funktionalitäts-aspekte (Funktionsumfang in den Kategorien Datenvorverarbeitung, Analyseverfahren und Parametrisierung, Ergebnisvisualisierung, Gesamteffizienz) als auch die Benutzerfreundlichkeit (Stabilität, Ausführungsgeschwindigkeit, Dokumentation, Bedienung) der Tools ab.
Das Testfeld setzt sich aus folgenden Data-Mining-Tools zusammen:
-
SAS Enterprise Miner 7.1,
-
Statsoft Statistica Data Miner 10,
-
IBM SPSS Modeler 14.2,
-
SAP BW 7 (Data Mining Workbench).
Data-Mining-Funktionen stehen in stark unterschiedlichen Softwaretypen zur Verfügung: Die Palette reicht von Data-Mining-Werkzeugen für spezielle Einsatzzwecke über funktional breiter aufgestellte (Open-Source-)Suiten bis hin zu Business-Intelligence-(BI-)Werkzeugen, die zunehmend Data-Mining-Funktionen in ihre Produkte integrieren.
In der Data-Mining-Studie treten die drei marktführenden Suiten von SAS, Statsoft und IBM SPSS direkt gegen-einander an. Da die zu analysierenden Daten in vielen Fällen in bestehenden BI-Systemen vorgehalten werden, liegt es nahe, in dieser Umgebung auch die eigentlichen Data-Mining-Analysen zu betreiben - in vielen Fällen ein attraktiver Einstieg, da kein separates Tool beschafft werden muss. Um zu beurteilen, wie sich ein klassisches BI-Werkzeug im Vergleich zu den etablierten Data-Mining-Suiten schlägt, wurde die SAP BW Data Mining Workbench mit ins Testfeld aufgenommen.
Ergebnisse des Praxistests
Im Praxistest zeigt sich, dass die drei etablierten Data-Mining-Suiten gleichermaßen einen hohen Reifegrad erreicht haben. Das macht sich vor allem in sehr hoher Systemstabilität, hoher Ausführungsgeschwindigkeit und souveränem Umgang mit großen Datenmengen bemerkbar. Hier hat besonders die Umstellung auf 64-Bit-Architekturen eine spürbare Entlastung gebracht.
Allerdings führen die durchweg hohe Funktionsmächtigkeit und die vielfältigen Parametrisierungsmöglichkeiten der Suiten zu vergleichsweise langen Einarbeitungszeiten. Es wird zudem immer schwieriger, ein Bedienkonzept für alle Anwendergruppen bereitzu- stellen, so dass sich beispielsweise der erfahrene Data-Mining-Analyst ebenso zu Hause fühlt wie der Marketier oder der Fachexperte aus dem Controlling.
Stärken und Schwächen
Diesbezüglich gibt es signifikante Unterschiede zwischen den Tools: Die Stärke von SAS liegt hier in der Einbettung des Enterprise Miner in eine leistungsfähige BI-Gesamtarchitektur, die neben der Analyse flexible Möglichkeiten der Datenhaltung oder weitreichende ETL-Funktionen bietet. Für Nutzer, die weitere Werkzeuge der SAS- Plattform verwenden (etwa den Enterprise Guide oder das Data Integration Studio), ergibt sich jedoch kein Vorteil, da jedes Tool eine andere Oberfläche und ein unterschiedliches Bedienkonzept aufweist.
IBM ist es mit SPSS gelungen, umfangreiche Funktionalität in eine moderne, intuitive Oberfläche zu verpacken: Der Modeler bietet insgesamt die beste Ergonomie und eine sehr gute - als einzige im Testfeld auf Deutsch verfügbare - Dokumentation, die den Einstieg erleichtert.
Die Wurzeln von Statsoft liegen in der Statistik, wessen man auch als Anwender der Data-Mining-Komponente sofort gewahr wird: Der Data Miner enthält als "Grundlage" stets die volle Funktionalität des Statistikpakets, was zum Beispiel mächtige Datenvorverarbeitungsfunktionen sowie eine große Zahl von frei konfigurierbaren Grafiken einschließt. Dadurch bietet Statis-tica das beste Preis-Leistungs-Verhältnis im Testfeld und gefällt ebenso mit einer modernen Oberfläche.
Vor allem an der wenig ergonomischen Oberfläche merkt man der SAP Data Mining Workbench an, dass sie seit mehreren Jahren keine substanziellen Aktualisierungen erfahren hat: Der in der Praxis oft notwendige Wechsel zwischen dem Analyseprozessdesigner (APD) und der Data Mining Workbench kostet Zeit und ist aus Nutzersicht nicht nachvollziehbar. Zudem sind die Data-Mining-Funktionen in ihrem Umfang stark begrenzt - neuere Verfahren wie Support Vector Machines stehen gar nicht zur Verfügung. Die Visualisierung und Endausgabe lässt eine Qualitätsbewertung der Ergebnisse nur rudimentär zu. Insgesamt reiht sich SAP daher am Ende des Testfelds ein.
Automatisierung
Mit der Steigerung der Einsatzhäufigkeit von Data Mining stellt sich zunehmend die Frage nach der Effizienz des gesamten Analyseprozesses: In welchem Verhältnis steht der Zeitaufwand zum betriebswirtschaftlichen Nutzen der Analyseergebnisse? Dies geben letztlich die verwendeten Data-Mining-Werkzeuge durch Funktionsumfang, Bedienkomfort und vor allem durch ihren Automatisierungsgrad vor.
Die Tool-Hersteller haben dies erkannt: SAS bietet mit dem Rapid Predictive Modeler eine (in der aktuellen Version nochmals überarbeitete) Data-Mining-Umgebung mit sinnvoll begrenzten Parametrisierungsoptionen an. Hier konnten im Test bereits mit den Standardparametern akzeptable Ergebnisse erzielt werden, die auf Wunsch manuell weiter verfeinert werden können. Statsoft liefert alternativ vorgefertigte Data-Mining-Rezepte für Standardaufgaben, IBM SPSS stellt unter anderem einen automatischen Klassifizierer zur Verfügung, der mehrere Prognosemodelle automatisch berechnen und vergleichen kann.
Fazit
Zusammenfassend lässt sich festhalten: Die Tool-Hersteller sind merklich bemüht, den Anwendern den Einstieg in Data-Mining-Analysen so weit wie möglich zu erleichtern. Die Weiterentwicklungen und Differenzierungen der Bedienkonzepte, ausführliche Dokumentationen inklusive Online-Hilfen und Tutorials sowie neue Ansätze zur Automatisierung des Data-Mining-Prozesses tragen maßgeblich zu dieser Entwicklung bei.
(Der Beitrag wurde von der CP-Schwesterpublikation Computerwoche übernommen / rb)