Captchas gegen KI

Bilderrätsel verwirren Spam-Bots

25.05.2009 von Armin Weiler

Um sich bei Online-Diensten zu registrieren zu können, müssen User immer öfters kleine Rätsel lösen. In den meisten Fällen gilt es schwer lesbare Wörter oder Zahlen zu entziffern. Der Sinn hinter der mühsamen Prozedur: Spam-Bots die automatisch versuchen sich zu registrieren um ihr Unheil zu treiben, scheitern an diesen Aufgaben. Sogenannte Captchas ("completely automated public turing test to tell computers and humans apart") helfen künstliche Intelligenz von der menschlichen zu unterscheiden und so nur realen Personen Zugriff zu erlauben. Um die Spammer jedoch auf Abstand zu halten, gilt es nun für Entwickler sich neue Rätsel einfallen zu lassen.

Ein neuer Ansatz aus der Entwicklungsabteilung von Google arbeitet mit Bildern, so die New York Times. Diese werden automatisch zufällig verdreht und müssen von den Usern wieder gerade gerichtet werden. Für Menschen ist es kein Problem zum Beispiel das Bild eines Papageis zu korrigieren, Computer scheitern jedoch daran. Die Rätsel könnten an die Inhalte einer Seite angepasst werden, der Nachschub an Bildern ist nahezu unbegrenzt. Jene die von Computern erkannt werden können, wie zum Beispiel das menschliche Gesicht, oder abstrakte Bilder, die auch Menschen überfordern, scheiden aus. Größter Vorteil der Bilderrätsel: Sie sollen nicht nur funktionieren, sondern auch Spaß machen.

Mehr zum Kampf gegen Spam

Ein weiterer Zugang ist das akustische Erkennen von Wörtern. Vor allem sehbehinderte Menschen können auf diese Form der Captchas zurückgreifen. Die verzerrten Stimmen, die bisher eingesetzt werden, können jedoch immer öfters auch automatisch erkannt werden. Ausschnitte aus alten Radioaufnahme sollen nun Abhilfe schaffen. Sie seien für Maschinen kaum zu erkennen, für Menschen jedoch einfach zu erfassen. Luis von Ahn, Professor an der Carnegie Mellon University hat das System erdacht und gilt als Pionier in der Captcha-Entwicklung. Sein Programm reCaptcha ist bereits im Einsatz und bietet einen besonderen Mehrwert.

Anstatt zufälliger Buchstabenkombinationen müssen eingescannte Stellen aus Dokumenten, die archiviert werden sollen, erkannt werden. Ausgewählt werden freilich nur Textstellen, die davor nicht automatisch erkannt werden konnten. So helfen die User nebenbei mit, aufwändige Archivierungsarbeiten voranzubringen. Pro Tag würden 25 Millionen Worte auf diese Art digitalisiert. Bisher konnten so Dokumente aus einer Zeitspanne von 30 Jahren erkannt werden. (pte/rw)