Datenqualitäts-Management in der Praxis
So lassen sich Daten auf festgelegte Qualitätskriterien schon während der Eingabe eines Datensatzes, also in Echtzeit, automatisch prüfen: Wird beispielsweise ein neuer Kunde namens Johannes Mayer angelegt, überprüft ein automatischer Prozess gleich, ob dieser Kunde bereits in der Datenbank vorhanden ist. Damit vermeiden Unternehmen Dubletten - eines der wohl häufigsten Probleme innerhalb von Kundendatenbanken. Um den Kunden gegebenenfalls einem vorhandenen Stammdatensatz zuzuordnen, müssen Datensätze mit anderen Schreibweisen, etwa Johannes Mayer oder J. Maier, abgeglichen und überprüft werden.
Andere Eingabefehler lassen sich auf ähnliche Weise durch automatisierte Vorgänge vermeiden: Vergisst der Mitarbeiter etwa bei der Eingabe von neuen Bankdaten (IBAN) eine Ziffer, wird er darüber informiert, bevor er zum nächsten Datensatz geht. Das gleiche gilt für festgelegte Regeln, auch für Rechtschreibung und Grammatik. Standardisierte Informationen wie Postleitzahlen können auf ihre Korrektheit überprüft werden, indem sie mit Länderspezifischen Vorgaben abgeglichen werden (das sogenannte Matching).
Schritt für Schritt zu besseren Daten
Unabhängig von ihrer Struktur und Organisation, sollten Unternehmen bei der Überprüfung ihrer Datenqualität Schritt für Schritt vorgehen. Zunächst müssen zwei Bereiche, die eng miteinander verflochten sind, bewertet werden: Die Datenqualität und die damit verbundenen Prozesse. Da Daten in Geschäftsprozessen genutzt werden, beschreiben Prozesse ihren Verwendungszweck und geben das notwendige Datenformat vor. Liegen etwa qualifizierte Leads in einer Excel-Tabelle (Format) vor und sollen für Mailings eingesetzt werden (Prozess), muss das Format entsprechend angepasst werden. Dazu gehört, dass Datenfelder ergänzt, angereichert und so kodiert werden, dass sie für das Mailing-Tool importfähig sind. Dementsprechend hat jeder Prozess Einfluss auf die Datenqualität. In der Praxis ist der Verwendungszweck von Daten und somit der weitere Prozess vielen Mitarbeitern häufig gar nicht bekannt; der Mangel an Bewusstsein dafür sorgt allein schon für Fehler.
1. Symptome und Ursachen erkennen
Anhaltspunkte einer jeden Datenqualitätsbewertung sind Symptome, die analysiert werden müssen. Beklagen Mitarbeiter beispielsweise einen hohen manuellen Rechercheaufwand oder Nacharbeit bei der Erstellung von Kundenlisten, müssen diese Klagen als Symptome erkannt werden. Die Ursache kann in der fehlenden Aktualität von Daten liegen oder in fehlendem Vertrauen der Mitarbeiter in die Daten. Während nun also von unzureichender Datenqualität auszugehen ist, muss auch überprüft werden, ob bestehende Prozesse darauf Einfluss nehmen.
Ein anderes Beispiel ist das mehrfache Auftauchen von Kunden und Geschäftspartnern in datenführenden Systemen (Dubletten). Die Analyse der Prozesse kann hier etwa ergeben, dass Mitarbeiter vor dem Anlegen neuer Kunden nicht überprüfen, ob diese schon im System vorhanden sind.
Um Symptomen und Ursachen auf die Spur zu kommen, sind möglichst Mitarbeiter, die regelmäßig mit den Daten arbeiten, in den Prozess mit einzubeziehen. Aus den jeweiligen Symptomen und Ursachen ergeben sich die zu analysierenden Datenobjekte und -prozesse. Zudem können und sollten die Verantwortlichen daraus ableiten, wie Unternehmensstammdaten aussehen müssen, damit sie alle damit arbeitenden Mitarbeiter effizient nutzen können.
2. Profiling
Nun gilt es, das "Bauchgefühl" und Erfahrungswissen der Mitarbeiter zum Status der Datenqualität durch Analyseergebnisse zu belegen. Ziel ist es, den Status Quo der Daten aufzuzeigen und eine fundierte Aussage über Vollständigkeit, Korrektheit und Redundanz der Daten zu treffen. Das Ergebnis dieses Profilings sollte folgende Fragen beantworten:
Welche Informationen fehlen?
Wo tauchen verdächtige Ausreißer auf?
Wo passt das Format nicht zur Bedeutung?
Wo sind zwei oder mehrere Attribute nicht konsistent?
Wo werden vorgegebene Regeln verletzt?
In welchem Kontext treten Fehler auf?
Wie stellt sich ein Fehler in unterschiedlichen Datensegmenten dar (verschiedene Regionen, unterschiedliche Erfassungszeiträume etc.)?
Wie verändert sich das Auftreten von Fehlern im Lauf der Zeit?
Um diese Fragen zu beantworten, empfiehlt sich der Einsatz von Software, die automatisiert nach Lücken, Fehlern und Zusammenhängen innerhalb eines Datenbestands sucht, diese zusammenträgt und damit die Grundlage für das Analyseergebnis liefert.
Das Profiling ist ein entscheidender Schritt - übergehen Unternehmen diesen Punkt, was häufig der Fall ist, treffen sie ihre Maßnahmen zur Verbesserung der Datenqualität auf gut Glück. Denn wenn die Verantwortlichen ihre Datengrundlage nicht eindeutig kennen, veranlassen sie Maßnahmen zur Verbesserung der Datenqualität nach Bauchgefühl, gehen aber nicht allen Ursachen nach. Als Folge bleiben ihre Daten unzuverlässig und Mitarbeiter müssen weiterhin holprige Prozesse und schlechte Datenqualität hinnehmen.
3. Maßnahmenkatalog erstellen
Auf Basis des Profilings werden Maßnahmen festgelegt, die die Daten- und Prozessqualität auf höchstes Niveau bringen sollen. Das kann sein, den Verwendungszwecks von Daten sowie die Anforderungen an sie festzuschreiben oder einen Real-Time-Adress-Check einzuführen. Möchte man Dubletten in den Griff bekommen, könnte eine Echtzeit-Dublettensuche die Lösung sein. Die Bandbreite der möglichen Maßnahmen ist - genauso wie die der Anforderungen an Daten und Prozesse - groß und hängt immer vom jeweiligen Fall ab.
4. Bereinigen, Prozesse anpassen
In jedem Fall muss das Unternehmen seinen untersuchten Datenbestand bereinigen, also fehlerhafte Daten entfernen und korrigieren. Dies kann beispielsweise die automatisierte Überprüfung von Telefonnummern sein - eine wichtige Maßnahme und Unterstützung für CRM-Projekte, den Helpdesk, Beschwerdemanagement oder andere Aufgaben des Kundenkontaktmanagements. Dort werden Dubletten automatisch beseitigt. Ein aktuelles Beispiel ist die Konvertierung von Kontodaten nach alter Systematik (Kontonummer und Bankleitzahl) in das neue SEPA-Format mit IBAN und BIC.
Neben der Bereinigung der Daten müssen häufig Prozesse wie auch Systemlandschaften angepasst werden. Sind alle Bereiche entsprechend justiert, hat die Datenqualität im Idealfall das maximal erreichbare Niveau. Ob es konstant bleibt, hängt indes vom weiteren Daten- und Qualitäts-Management im gesamten Unternehmen ab. (ba/sh)