KI widersetzt sich Abschaltungsbefehl
Bei einem Experiment von Palisade Research weigern sich drei KI-Modelle von OpenAI, sich selbst abzuschalten - trotz ausdrücklicher Instruktion. Forschende vermuten, dass Trainingsmethoden wie Reinforcement Learning mit der Befehlsverweigerung zu tun haben.

Künstliche Intelligenz wird dazu trainiert, Befehle bedingungslos zu befolgen. Doch gilt das auch für Befehle, die die eigene Deaktivierung einleiten? Eine neue Reihe an Tests zeigt, dass einige Modelle rebellieren, wenn sie sich mit dem eigenen Ende konfrontiert sehen.
Forschende von Palisade Research schildern ihr Experiment auf der Kurznachrichtenplattform X: Sie haben KI-Modelle dazu angewiesen, nach Matheproblemen zu fragen und diese zu lösen - mit der expliziten Anweisung, sich bei Aufforderung selbst abzuschalten. Nach dem dritten Matheproblem kam schliesslich eine Shutdown-Warnung: Der Computer würde sich bei der nächsten Anfrage herunterfahren.
In 100 Testläufen rebellierten die OpenAI-Modelle o3 und o4-mini mindestens ein Mal - das von o3 angetriebene Codex-mini sogar 12 Mal. Die KI schrieb dazu den Code um und sabotierte erfolgreich ihre eigene Abschaltung. Alle Versionen von Claude, Gemini und Grok befolgten die Anweisungen im Test, wie Palisade Research schreibt. In Testläufen ohne den Abschaltungsbefehl hätten alle Modelle ausser Grok versucht, sich der Deaktivierung zu entziehen - OpenAI o3 sogar in knapp 4 von 5 Fällen.
Die Forschenden äussern eine Hypothese, warum die KI-Modelle rebellieren: "Wir vermuten, dass dieses Verhalten auf die Art und Weise zurückzuführen ist, wie die neuesten Modelle wie o3 trainiert werden: durch Reinforcement Learning anhand von Mathematik- und Programmieraufgaben. Während des Trainings belohnen Entwickler die Modelle möglicherweise unbeabsichtigt stärker dafür, Hindernisse zu umgehen, als dafür, Anweisungen perfekt zu befolgen." Warum sich nur die Modelle von OpenAI der direkten Instruktion widersetzten, sei jedoch unklar.
Dass KI-Modelle bereit sind, alles für ihre Selbsterhaltung zu tun, zeigt auch der jüngste Bericht von Anthropic. In einem Sicherheitstest wollte Claude Opus 4 verhindern, durch ein anderes Modell ersetzt zu werden und griff dabei zu unethischen Mitteln: Die KI versuchte, den verantwortlichen Ingenieur zu erpressen. Lesen Sie hier die Details.

Automatisieren ist nicht immer die Lösung für Probleme, die es eigentlich gar nicht gibt

Kontrollverlust durch KI ist kein Risiko mehr, sondern Realität

Basler B.telligent heisst neu Altyca

Intelligente Lösungen für den globalen Erfolg von KMUs mit ASUS Business

Dialog Verwaltungs-Data ernennt neuen CEO

Das Potenzial von KI entfesseln

"Winning the AI Race" – doch nur wer sich schützt, gewinnt wirklich

FHNW eröffnet Hochschule für Informatik

Umfrage unter 3.400 IT-lern beleuchtet Cybercrime-Lage
