KI widersetzt sich Abschaltungsbefehl

News

Bei einem Experiment von Palisade Research weigern sich drei KI-Modelle von OpenAI, sich selbst abzuschalten - trotz ausdrücklicher Instruktion. Forschende vermuten, dass Trainingsmethoden wie Reinforcement Learning mit der Befehlsverweigerung zu tun haben.

(Source: Lemonsandtea / pixabay.com)

Künstliche Intelligenz wird dazu trainiert, Befehle bedingungslos zu befolgen. Doch gilt das auch für Befehle, die die eigene Deaktivierung einleiten? Eine neue Reihe an Tests zeigt, dass einige Modelle rebellieren, wenn sie sich mit dem eigenen Ende konfrontiert sehen.

Forschende von Palisade Research schildern ihr Experiment auf der Kurznachrichtenplattform X: Sie haben KI-Modelle dazu angewiesen, nach Matheproblemen zu fragen und diese zu lösen - mit der expliziten Anweisung, sich bei Aufforderung selbst abzuschalten. Nach dem dritten Matheproblem kam schliesslich eine Shutdown-Warnung: Der Computer würde sich bei der nächsten Anfrage herunterfahren.

In 100 Testläufen rebellierten die OpenAI-Modelle o3 und o4-mini mindestens ein Mal - das von o3 angetriebene Codex-mini sogar 12 Mal. Die KI schrieb dazu den Code um und sabotierte erfolgreich ihre eigene Abschaltung. Alle Versionen von Claude, Gemini und Grok befolgten die Anweisungen im Test, wie Palisade Research schreibt. In Testläufen ohne den Abschaltungsbefehl hätten alle Modelle ausser Grok versucht, sich der Deaktivierung zu entziehen - OpenAI o3 sogar in knapp 4 von 5 Fällen.

Die Forschenden äussern eine Hypothese, warum die KI-Modelle rebellieren: "Wir vermuten, dass dieses Verhalten auf die Art und Weise zurückzuführen ist, wie die neuesten Modelle wie o3 trainiert werden: durch Reinforcement Learning anhand von Mathematik- und Programmieraufgaben. Während des Trainings belohnen Entwickler die Modelle möglicherweise unbeabsichtigt stärker dafür, Hindernisse zu umgehen, als dafür, Anweisungen perfekt zu befolgen." Warum sich nur die Modelle von OpenAI der direkten Instruktion widersetzten, sei jedoch unklar.

Dass KI-Modelle bereit sind, alles für ihre Selbsterhaltung zu tun, zeigt auch der jüngste Bericht von Anthropic. In einem Sicherheitstest wollte Claude Opus 4 verhindern, durch ein anderes Modell ersetzt zu werden und griff dabei zu unethischen Mitteln: Die KI versuchte, den verantwortlichen Ingenieur zu erpressen. Lesen Sie hier die Details.

Artikel teilen: