Microsofts KI-Chef

"Frei zugängliche Webinhalte sind Freeware"

02.07.2024 von Manfred Bremmer

Der KI-Chef von Microsoft demonstriert in einem Interview ein kurioses Rechtsverständnis wenn es darum geht, Web-Inhalte für KI-Modelltraining zu nutzen.

Mustafa Suleyman, CEO von Microsoft AI, sieht das Thema Copyright und KI relativ locker.
Foto: Screenshot YouTube

Mustafa Suleyman, Leiter von Microsofts KI-Sparte, vertritt die Ansicht, dass jeder Inhalte kopieren und nutzen kann, sobald sie im Internet frei zugänglich sind. Als ihn Andrew Ross Sorkin von CNBC auf dem "Aspen Ideas Festival" fragte, ob "KI-Unternehmen die geistigen Eigentumsrechte der Welt effektiv gestohlen haben", erklärte der Mitbegründer von Deepmind:

"Ich denke, dass es sich bei Inhalten, die bereits im offenen Web verfügbar sind, seit den 1990er-Jahren um eine Art 'Fair Use' handelt. Jeder kann sie kopieren, mit ihnen neues erstellen und sie reproduzieren. Das war sozusagen 'Freeware', so wurde es verstanden."

"Opt-out ist eine Grauzone"

Gleichzeitig wies Suleyman darauf hin, dass es eine weitere Kategorie von Inhalten gibt, bei denen eine Organisation der Verwendung durch KI ausdrücklich widersprochen hat - hier sieht er eine "Grauzone", mit der sich die Gerichte beschäftigen werden.

Angesichts etlicher laufender Verfahren wegen angeblicher Urheberrechtsverletzungen lehnt sich Microsofts KI-Chef mit dieser Darstellung weit aus dem Fenster. Microsoft ist derzeit mit mehreren Klagen konfrontiert, in denen behauptet wird, dass das Unternehmen - und OpenAI - urheberrechtlich geschützte Online-Artikel stiehlt, um generative KI-Modelle zu trainieren. So hatte die "New York Times" bereits Anfang des Jahres Klage erhoben, im April schlossen sich acht weitere US-Verlage der laufenden Klage an.

Ende vergangener Woche zerrte zudem das Center for Investigative Reporting (CIR) OpenAI und seinen größten Investor Microsoft "wegen der Nutzung der Inhalte der gemeinnützigen Nachrichtenorganisation ohne Genehmigung oder Entschädigung" vor den Kadi. "OpenAI und Microsoft haben angefangen, unsere Geschichten zu sammeln, um ihr Produkt leistungsfähiger zu machen, aber sie haben nie um Erlaubnis gefragt oder eine Entschädigung angeboten, im Gegensatz zu anderen Organisationen, die unser Material lizenzieren", erklärte CIR-CEO Monika Bauerlein in einem Statement. "Dieses Trittbrettfahrer-Verhalten ist nicht nur unfair, sondern auch eine Verletzung des Urheberrechts. Die Arbeit von Journalisten, beim CIR und überall, ist wertvoll, und OpenAI und Microsoft wissen das."

Scraping trotz Robots.txt

Weiteres Öl ins Feuer der laufenden Anschuldigungen gießen Berichte, wonach mehrere datenhungrige KI-Firmen mit ihren Web-Crawlern selbst das Robots Exclusion Protocol (robots.txt) ignorieren, ein weit verbreiteter Standard, der festlegen soll, welche Teile einer Website durchsucht werden dürfen. Anfang Juni hatte bereits das Wirtschaftsmagazin "Forbes" entsprechende Anschuldigungen gegen Perplexity AI erhoben. Wenig später konnte dann "Wired" angeblich verifizieren, dass eine mit Perplexity in Verbindung stehende und bei AWS gehostete Maschine Inhalte auf Wired.com und in anderen Publikationen von Condé Nast gescraped hat.

Wie aus einem Reuters zugespielten Brief hervorgeht, handelt es sich bei Perplexity nicht um einen Einzelfall. Demnach erklärte das Content-Lizenzierungs-Startup TollBit gegenüber Verlagen, dass zahlreiche KI-Unternehmen den Webstandard, um das Scrapen ihrer Inhalte für die Verwendung in generativen KI-Systemen zu blockieren, umgehen. Namen wurden jedoch nicht genannt, allerdings berichtet Business Insider, dass auch OpenAI und Anthropic robots.txt ignorieren.