KI widersetzt sich Abschaltungsbefehl
Bei einem Experiment von Palisade Research weigern sich drei KI-Modelle von OpenAI, sich selbst abzuschalten - trotz ausdrücklicher Instruktion. Forschende vermuten, dass Trainingsmethoden wie Reinforcement Learning mit der Befehlsverweigerung zu tun haben.

Künstliche Intelligenz wird dazu trainiert, Befehle bedingungslos zu befolgen. Doch gilt das auch für Befehle, die die eigene Deaktivierung einleiten? Eine neue Reihe an Tests zeigt, dass einige Modelle rebellieren, wenn sie sich mit dem eigenen Ende konfrontiert sehen.
Forschende von Palisade Research schildern ihr Experiment auf der Kurznachrichtenplattform X: Sie haben KI-Modelle dazu angewiesen, nach Matheproblemen zu fragen und diese zu lösen - mit der expliziten Anweisung, sich bei Aufforderung selbst abzuschalten. Nach dem dritten Matheproblem kam schliesslich eine Shutdown-Warnung: Der Computer würde sich bei der nächsten Anfrage herunterfahren.
In 100 Testläufen rebellierten die OpenAI-Modelle o3 und o4-mini mindestens ein Mal - das von o3 angetriebene Codex-mini sogar 12 Mal. Die KI schrieb dazu den Code um und sabotierte erfolgreich ihre eigene Abschaltung. Alle Versionen von Claude, Gemini und Grok befolgten die Anweisungen im Test, wie Palisade Research schreibt. In Testläufen ohne den Abschaltungsbefehl hätten alle Modelle ausser Grok versucht, sich der Deaktivierung zu entziehen - OpenAI o3 sogar in knapp 4 von 5 Fällen.
Die Forschenden äussern eine Hypothese, warum die KI-Modelle rebellieren: "Wir vermuten, dass dieses Verhalten auf die Art und Weise zurückzuführen ist, wie die neuesten Modelle wie o3 trainiert werden: durch Reinforcement Learning anhand von Mathematik- und Programmieraufgaben. Während des Trainings belohnen Entwickler die Modelle möglicherweise unbeabsichtigt stärker dafür, Hindernisse zu umgehen, als dafür, Anweisungen perfekt zu befolgen." Warum sich nur die Modelle von OpenAI der direkten Instruktion widersetzten, sei jedoch unklar.
Dass KI-Modelle bereit sind, alles für ihre Selbsterhaltung zu tun, zeigt auch der jüngste Bericht von Anthropic. In einem Sicherheitstest wollte Claude Opus 4 verhindern, durch ein anderes Modell ersetzt zu werden und griff dabei zu unethischen Mitteln: Die KI versuchte, den verantwortlichen Ingenieur zu erpressen. Lesen Sie hier die Details.

Der bargeldlose Zahlungsverkehr wird fit für SCION

Jetzt E-Days Webcasts online verfügbar

DeepCloud: Digitale Verwaltung mit Swiss Made Solutions

Digitale Souveränität wahrt Unabhängigkeit und Handlungsfähigkeit

Swiss Cyber Security Days – Expo und Congress für digitale Sicherheit

Wie Teddy den Kürbis bewertet

"Die Digitalisierung ist Realität – wie gestalten wir sie?"

Kanton Bern möchte Einheits-KIS für alle Spitäler – und sorgt für Stirnrunzeln

Studie stellt Wirksamkeit von Anti-Phishing-Schulungen in Frage
