ChannelPartner
Alternatives Drucklayout:
› reiner Text
Link: https://www.channelpartner.de/a/ki-selbstgespraeche-fuehren-in-den-wahnsinn,3618429

Menschliche Eingriffe erforderlich

KI-Selbstgespräche führen in den Wahnsinn

Datum:29.07.2024
Autor(en):Peter Marwan
Wissenschaftler der Universität Oxford haben KI-Programme mehrfach mit zuvor von einer KI erzeugten Trainingsdaten gefüttert. Das Ergebnis war ernüchternd: Bereits nach wenigen Zyklen brechen große Sprachmodelle bei solchen „Selbstgesprächen“ zusammen und produzieren nur noch Unsinn.

Der Wert über echte menschliche Interaktionen mit Systemen gesammelten Daten wird angesichts der Zunahme von LLM-generierten Inhalten im Internet immer wertvoller.
Foto: Peter Marwan mit Dreamshaper XL Lightning via NightCafé

Generative künstliche Intelligenz (GenAI) und große Sprachmodelle (LLM) haben in den vergangenen zwei Jahren gezeigt, dass sie für viele Menschen in vielen Bereichen nützliche und hilfreiche Werkzeuge sein können. Manche träumen sogar davon, dass KI Menschen in manchen Bereichen ganz ersetzen kann.

Zumindest bei der Text- und Bilderstellung wird das allerdings so bald nicht möglich sein. Denn wie Ilia Shumailov und Zakhar Shumaylov mit ihren jeweiligen Teams an der Universiät Oxford jetzt herausgefunden haben, werden die Ergebnisse der KI-Arbeit immer schlechter, umso mehr bereits durch eine KI generiertes Material in den Trainingsdaten enthalten ist.

KI verschlechtert sich mit KI-Daten immer weiter

"Wir stellen fest, dass die wahllose Verwendung von modellgeneriertem Inhalt beim Training irreversible Defekte in den resultierenden Modellen verursacht, bei denen Enden der ursprünglichen Inhaltsverteilung verschwinden", schreiben die Wissenschaftler im Magazin "Nature"1 . Das gelte alle für all erlernten generativen Modelle.

"Ach ist der süß" - diese sehr menschliche Reaktion in Bezug auf einen Golden Retriever und die daraus resultierende überproportionale Darstellung von Golden Retrievern in öffentlich verfügbaren Daten könnte KI auf absonderliche Irrwege führen.
Foto: ViDI Studio - shutterstock.com

Ihre Erkenntnisse müssten Ernst genommen werden, betonen die Wissenschaftler, wenn Anwender weiterhin in den Genuss der Vorteile des Trainings mit umfangreichen, aus dem Internet gecrawlten Daten kommen wollen. Sie weisen darauf hin, dass der Wert der über echte menschliche Interaktionen mit Systemen gesammelten Daten angesichts der Präsenz von LLM-generierten Inhalten im Internet immer wertvoller werde.

In einem Interview für die Zeitschrift Nature2 ergänzt Zakhar Shumaylov "Wir müssen sehr vorsichtig sein, was in unseren Trainingsdaten landet. Andernfalls werden Dinge nachweislich immer schiefgehen."

Die Informatikerin Emily Wenger bringt das Dilemma für die Wissenschafts-Webseite Spektrum.de folgendermaßen auf den Punkt3: "KI erzeugt Müll, wenn man sie mit ihren eigenen Daten trainiert." Als Grund nennt sie, "dass die Modelle die selten vorkommenden Bestandteile des ursprünglichen Trainingsdatensatzes nach und nach vergessen."

Wenger illustriert das mit einem Beispiel: "Angenommen, ein Algorithmus soll Bilder von Hunden erzeugen. Das Programm wird die in den Trainingsdaten am häufigsten vorkommenden Hunderassen öfter nachbilden, so dass beispielsweise Golden Retriever im Vergleich zum Kleinen Basset Griffon Vendéen überrepräsentiert sind. Wenn nachfolgende Systeme mit diesem KI-generierten Datensatz trainiert werden, verstärkt sich das Problem. Nach mehreren Zyklen mit überrepräsentierten Golden Retrievern vergessen die Programme irgendwann, dass es Hunderassen wie den Kleinen Basset Griffon Vendéen überhaupt gibt, und liefern nur noch Bilder von Golden Retrievern."

Zu einem ähnlichen Ergebnis kam kürzlich eine weitere Studie aus Großbritannien4. Denmnach kann KI (konkret ChartGPT) zwar Autoren, die sich selbst als unkreativ einschätzen, beim Schreiben von Texten helfen - diese Texte gleichen sich aber immer mehr an. Echte, neue Ideen entstehen kaum, ein einmal bewährtes, mittelmäßiges Rezept wird immer häufiger wiederholt, umso öfter es als passend gewertet wurde.

Einfache Lösung des Problems nicht in Sicht

Wasserzeichen könnten das Problem nach Ansicht von Studien-Autor Shumailov zumindest entschärfen, weil sich entsprechend gekennzeichnete Daten leicht aus Trainingsdatensätzen entfernen ließen. Allerdings wirft der in der Theorie plausibel erscheinende Ansatz in der Praxis zahlreich Fragen auf. Erstens müssten sich dazu alle KI-Firmen auf gemeinsame Standards einigen. Schert nur ein Unternehmen aus, kollabiert das gesamte System. Zweitens lassen sich solche Wasserzeichen relativ leicht entfernen5.

Drittens ist noch unklar, ob das von Shumailov und Shumaylov als Problemlösung geforderte menschlichen Feedback sich nicht auch durch KI simulieren lässt. Google-Forscher haben dazu in Bezug auf Bildgenerierung erst kürzlich aus ihrer Sicht vielversprechende Ansätze vorgestellt6. Auch Microsoft arbeitet in dieser Richtung: Das Unternehmen beschäftigt sich intensiv damit7, wie die bekannten "Halluzinationen" - also Bestandteile der Antworten, die in den zugrundeliegenden Daten überhaupt nicht enthalten sind - unterbunden werden könnten

Informatikerin Wenger weist zudem darauf hin, dass in der aktuellen Arbeit ausschließlich KI-Modelle zur Texterzeugung untersucht wurden. Sie sieht Untersuchungsbedarf daraufhin, "ob die beschriebenen Probleme auch bei anderen generativen KI-Systemen auftreten, einschließlich multimodaler Programme wie GPT-4o, die Bilder, Text und Audio erzeugen."

Außerdem sei nicht berücksichtigt worden, was passiert, wenn die Modelle mit Daten anderer KI-Systeme trainiert werden. "Das würde ein realistischeres - und deutlich komplizierteres - Ergebnis liefern, da das Internet voll von Daten unterschiedlicher KI-Algorithmen ist. Falls das Problem auch in diesem Szenario bestehen bleibt, muss man herausfinden, was genau den Zusammenbruch der Modelle verursacht", schreibt Wenger.

Mehr zum Thema

Der richtige Umgang mit KI8

ChatGPT erweist sich als passabler Witze-Erfinder9

Gute Aussichten für KI-Projekte in der Landwirtschaft10

Sage-Studie zu KI im Personalwesen11

Links im Artikel:

1 https://www.nature.com/articles/s41586-024-07566-y
2 https://www.nature.com/articles/d41586-024-02420-7
3 https://www.spektrum.de/news/ki-modelle-versagen-wenn-man-sie-mit-ki-generierten-daten-trainiert/2225747
4 https://www.channelpartner.de/a/chatgpt-hilft-vor-allem-langweiligen-autoren,3737417
5 https://arxiv.org/abs/2306.01953
6 https://research.google/blog/rich-human-feedback-for-text-to-image-generation/
7 https://news.microsoft.com/source/features/ai/why-ai-sometimes-gets-it-wrong-and-big-strides-to-address-it/
8 https://www.channelpartner.de/a/der-richtige-umgang-mit-ki-fuer-mitarbeitende-und-fuehrungskraefte,3618331
9 https://www.channelpartner.de/a/chatgpt-kann-auch-lustig-sein,3737105
10 https://www.channelpartner.de/a/gute-aussichten-fuer-it-und-ki-projekte-in-der-landwirtschaft,3618157
11 https://www.channelpartner.de/a/ki-im-personalwesen,3617876

IDG Tech Media GmbH
Alle Rechte vorbehalten. Jegliche Vervielfältigung oder Weiterverbreitung in jedem Medium in Teilen oder als Ganzes bedarf der schriftlichen Zustimmung der IDG Tech Media GmbH. dpa-Texte und Bilder sind urheberrechtlich geschützt und dürfen weder reproduziert noch wiederverwendet oder für gewerbliche Zwecke verwendet werden. Für den Fall, dass auf dieser Webseite unzutreffende Informationen veröffentlicht oder in Programmen oder Datenbanken Fehler enthalten sein sollten, kommt eine Haftung nur bei grober Fahrlässigkeit des Verlages oder seiner Mitarbeiter in Betracht. Die Redaktion übernimmt keine Haftung für unverlangt eingesandte Manuskripte, Fotos und Illustrationen. Für Inhalte externer Seiten, auf die von dieser Webseite aus gelinkt wird, übernimmt die IDG Tech Media GmbH keine Verantwortung.