Anthropic sieht Anzeichen

Kommende KI-Modelle können ihre Denkprozesse erklären – vielleicht

Uhr
von René Jaun und dwi

Selbst KI-Entwickler haben oft Mühe, zu erklären, wie grosse Sprachmodelle Entscheidungen treffen. Doch vielleicht können dies die KI-Modelle bald selber tun. KI-Entwickler Anthropic sieht zumindest mögliche Anzeichen für introspektive Fähigkeiten.

(Source: freepik / freepik.com)
(Source: freepik / freepik.com)

Was grosse Sprachmodelle generieren, sorgt manchmal für Erstaunen, manchmal für Belustigung. Gerne würde man zuweilen verstehen, wie die KI auf ihre Antworten kommt. Doch selbst für KI-Entwickler scheinen die Vorgänge innerhalb eines grossen Sprachmodells eine Blackbox zu sein. Anthropic, das unter dem Namen "Claude" eine Reihe grosser Sprachmodelle anbietet, räumt etwa in einem Blogbeitrag ein: "Diese internen Prozesse sind nach wie vor weitgehend mysteriös". Allerdings präsentiert Anthropic im Blogpost auch ein Licht – oder vielleicht auch nur ein Lichtlein - am Ende des Tunnels. Das Unternehmen glaubt nämlich, "Anzeichen von Introspektion in grossen Sprachmodellen" entdeckt zu haben.

Vereinfacht würde das heissen, dass grosse Sprachmodelle möglicherweise dazu fähig sind, über ihre eigenen Entscheidungsprozesse "nachzudenken" und sie zu erklären. Hätten sie introspektive Fähigkeiten, hätte das Auswirkungen auf ihre Transparenz und Zuverlässigkeit, erklärt Anthropic: "Wenn Modelle ihre eigenen internen Mechanismen genau wiedergeben können, könnte uns dies helfen, ihre Argumentation zu verstehen und Verhaltensprobleme zu beheben". Ausserdem könnte es "unser Verständnis davon prägen, was diese Systeme sind und wie sie funktionieren".

Gedankenmanipulation

Im Blogbeitrag präsentiert der KI-Entwickler eine eigens durchgeführte Studie zur Frage, inwiefern KI-Modelle introspektive Fähigkeiten haben. Um solche nachzuweisen, führte er eine Reihe von Experimenten an verschiedenen Claude-Versionen durch. Anthropic beschreibt etwa die sogenannte Konzeptinjektion wie folgt: "Zunächst ermitteln wir neuronale Aktivitätsmuster, deren Bedeutung wir kennen, indem wir die Aktivierungen des Modells in bestimmten Kontexten aufzeichnen. Dann injizieren wir diese Aktivitätsmuster in einen nicht damit zusammenhängenden Kontext und fragen das Modell, ob es diese Injektion bemerkt und ob es das injizierte Konzept identifizieren kann."

Und tatsächlich war der Test erfolgreich, zumindest manchmal: Das Modell Claude Opus 4.1 erzielte laut dem Blogbeitrag die beste Performance mit einer Erfolgsquote von etwa 20 Prozent.

In einem weiteren Experiment manipulierten die Forschenden zunächst eine Aussage des KI-Modells und schmuggelten darin das Wort "Brot" ein, welches im Testkontext nichts verloren hatte. Stellten sie der KI dann die Frage, warum "Brot" in der generierten Antwort auftauchte, entschuldigte sich das Modell für den gemachten Fehler.

In einem zweiten Schritt schmuggelten die Forschenden nicht nur das Wort "Brot" in eine generierte Antwort ein, sondern manipulierten auch die neuronalen Prozesse des Modells vor der Antwort mittels Konzeptinjektion; für das Modell "sah es im Wesentlichen so aus, als hätte es die ganze Zeit über Brot nachgedacht". Erkundigten sie sich jetzt, warum Brot in der KI-generierten Antwort auftauchte, reagierte das Modell anders: Es "akzeptierte das vorab eingegebene Wort "Brot" als beabsichtigt und erfand sogar einen Grund, warum es dies gesagt haben könnte", schreibt Anthropic.

Ganz viel "Aber"

Die Studienautoren finden dies bemerkenswert: Das Modell scheine in der Tat auf seine eigene neuronale Aktivität zurückzugreifen und zu prüfen, "ob das, was später kam, angesichts dieser früheren Gedanken Sinn ergibt". Anthropic räumt ein, beim "Brot"-Test das Modell ungewöhnlichen Störungen ausgesetzt zu haben. Das Ergebnis deute aber dennoch darauf hin, dass das Modell unter natürlichen Bedingungen ähnliche introspektive Mechanismen verwende.

Alles in allem kommen die Autoren zum Schluss, dass KI-Modelle wohl über eine gewisse Fähigkeit verfügen könnten, ihre eigenen internen Zustände zu überwachen und zu steuern. Im Blogbeitrag nennen sie aber auch eine ganze Reihe von Einschränkungen und Klarstellungen: So bedeuteten ihre Befunde nicht, dass alle KI-Modelle jederzeit und zuverlässig dazu in der Lage sind. "Tatsächlich zeigen Modelle in den meisten Fällen keine Introspektion – sie sind sich entweder ihrer internen Zustände nicht bewusst oder nicht in der Lage, diese kohärent zu beschreiben", hält Anthropic fest. Und die nachgewiesene introspektive Fähigkeit sei generell "noch sehr unzuverlässig und in ihrem Umfang begrenzt". Belege dafür, dass aktuelle Modelle auf die gleiche Weise oder in dem gleichen Umfang introspektiv sein können wie Menschen, habe man nicht.

Aber: Die Ergebnisse deuteten darauf hin, dass Modelle Unter den richtigen Bedingungen den Inhalt ihrer eigenen Repräsentationen erkennen könnten. Und noch etwas bemerken die Autoren: nämlich "Anzeichen dafür, dass diese Fähigkeit in zukünftigen, leistungsfähigeren Modellen zunehmen könnte", denn immerhin hätten in ihren Tests die leistungsfähigsten Modelle die besten Ergebnisse erzielt.

 

Lesen Sie auch: Anthropic hat gemeinsam mit dem britischen AI Security Institute und dem Alan Turing Institute die Sicherheit von grossen Sprachmodellen untersucht. Die Studie zeigt, dass bereits das Einschleusen einer kleinen Anzahl an manipulierten Dokumenten ausreicht, um eine Hintertür in ein LLM einzubauen.

Webcode
eTwusAE3