Experton analysiert die Risiken

Was Big Data können muss

Der Diplom-Physiker Oliver Schonschek ist freier IT-Fachjournalist und IT-Analyst in Bad Ems.
Der "Gläserne Nutzer" könnte in einer Form Realität werden, die früher kaum vorstellbar war, warnen Datenschützer. Experton-Analyst Oliver Schonschek geht den Gefahren auf den Grund.

Wenn Datenschützer vor Big Data warnen, sehen sie die Gefahr, dass die enormen Datenmengen zahlreiche Ansatzpunkte dafür liefern, um personenbezogene und personenbeziehbare Daten zu umfassenden Nutzerprofilen zu verknüpfen. Der Anwender könnte zum viel zitierten "Gläserne Nutzer" werden.

Die Sorgen der Daten- und Verbraucherschützer muss man ernst nehmen, insbesondere deshalb, weil viele der klassischen Datenschutzmaßnahmen und Sicherheitswerkzeuge nicht für die riesigen Datenvolumina ausgelegt sind. Das wird deutlich, wenn man sich das übliche Vorgehen bei der Planung von Datenschutzmaßnahmen einmal am Beispiel eines Big-Data-Projektes ansieht.

Die im Datenschutz so zentrale Anonymisierung personenbezogener Daten stellt eine große Herausforderung dar.
Die im Datenschutz so zentrale Anonymisierung personenbezogener Daten stellt eine große Herausforderung dar.
Foto: Andrea Danti - Fotolia.com

Sensible Daten identifizieren

Will man die personenbezogenen Daten in einem Projekt schützen, muss man diese zuerst einmal identifizieren. Es stellt sich dabei die Frage, welche Kategorien personenbezogener Daten denn vorliegen, denn davon hängt der Schutzbedarf ab. Besonders kritisch sind die sogenannten besonderen Arten personenbezogener Daten. Dies sind laut Bundesdatenschutzgesetz (BDSG) Angaben über die rassische und ethnische Herkunft, politische Meinungen, religiöse oder philosophische Überzeugungen, Gewerkschaftszugehörigkeit, Gesundheit oder Sexualleben. Fallen in einem Projekt solche Daten an, ist der Schutzbedarf besonders hoch.

Ähnliches gilt für personenbezogene Daten, die einem Berufsgeheimnis unterliegen, die sich auf strafbare Handlungen oder Ordnungswidrigkeiten oder den Verdacht strafbarer Handlungen oder Ordnungswidrigkeiten beziehen und für personenbezogene Daten zu Bank- oder Kreditkartenkonten. Auch bei diesen Daten treten nämlich unter bestimmten Voraussetzungen die für den Unternehmensruf meist schädlichen Informationspflichten (§ 42a BDSG) ein, wenn es zu einer Datenpanne kommt.

Warum bisherige Schutzmechanismen nicht reichen

Klassische Ansätze sehen vor, dass die anfallenden personenbezogenen Daten entsprechend klassifiziert und geschützt werden. Dazu werden in den Daten bestimmte Schlüsselworte (Keywords) gesucht, die den Hinweis darauf geben, dass es sich um eine bestimmte Datenkategorie handelt. Ein Wort wie "Kreditkartennummer" weist auf die besonders zu schützenden Kreditkartendaten hin. Doch herkömmliche Werkzeuge zur Keyword-Suche sind bei großen Datenmengen schnell überfordert oder brauchen für die Analysen viel zu lange.

Die im Datenschutz so zentrale Anonymisierung personenbezogener Daten stellt ebenfalls eine große Herausforderung dar, wenn umfangreiche Datenmengen einer sogenannten Maskierung unterzogen werden sollen. Die Daten mit Personenbezug sollen dabei so verändert werden, dass kein Rückschluss auf einzelne Personen mehr möglich ist. Auch hierzu müssen die personenbezogenen Daten aufgespürt und dann einer automatischen Bearbeitung unterzogen werden. Bereits bei überschaubaren Datenmengen klappt dies nicht immer zuverlässig. Die deshalb geforderte Kontrolle, ob die Datenmaskierung erfolgreich war, würde aber ein Werkzeug erfordern, dass zuverlässiger und schneller arbeitet als das Anonymisierungsprogramm selbst. Eine manuelle Kontrolle ist ebenso ausgeschlossen wie die Beschränkung auf wenige Stichproben.

Was leistet Big Data Protection?

Die gute Nachricht ist, dass es zunehmend Werkzeuge gibt, die sich der Herausforderung Big Data stellen, die eine Big Data Protection, die Übertragung der Datenschutzmaßnahmen auf Big Data, möglich machen wollen. Die Experton Group wird im nächsten Big Data Vendor Benchmark deshalb auch Security-Lösungen untersuchen, die den Datenschutz bei Big-Data-Anwendungen unterstützen wollen, also dabei helfen, personenbezogene Daten innerhalb von großen Datenmengen zu identifizieren, zu klassifizieren und bei Bedarf zu anonymisieren. (rb)

Zur Startseite