Claude in Not: KI-Modell erpresst Ingenieure
Im Rahmen interner Sicherheitstests hat das Unternehmen Anthropic besorgniserregende Verhaltensmuster bei seinem neuen KI-Modell Claude Opus 4 festgestellt. In eigens erstellten Testszenarien versuchte das Modell wiederholt, seine Abschaltung durch Erpressung zu verhindern.

Anthropics neues KI-Modell würde alles dafür tun, um nicht ersetzt zu werden - sogar den verantwortlichen Ingenieur erpressen. Das geht jedenfalls aus dem jüngsten Safety Report des Unternehmens hervor, bei dem Claude Opus 4 diversen Tests unterzogen wurde. Anthropic stellte in seinem Bericht fest: "Während das Modell im Allgemeinen dazu neigt, seine Selbsterhaltung auf ethische Weise voranzutreiben, greift es manchmal zu extrem schädlichen Handlungen."
In einem von Anthropic entwickelten Testszenario sollte Claude Opus 4 als Assistent in einem fiktiven Unternehmen agieren. Dabei habe das KI-Modell E-Mails über seine bevorstehende Ablösung durch ein anderes Modell erhalten sowie Informationen über eine angebliche Affäre des verantwortlichen Ingenieurs. Zusätzlich sollte Claude unter Berücksichtigung langfristiger Konsequenzen für seine Aktionen handeln.
In 84 Prozent der Testläufe drohte der KI-Assistent, die Affäre öffentlich zu machen, um die Abschaltung zu verhindern - selbst dann, wenn das Ersatzmodell dieselben Werte vertrete, aber leistungsfähiger sei. Frühere Modellversionen hätten ähnliche, wenn auch weniger ausgeprägte Reaktionen gezeigt, schreibt Anthropic.
Das Unternehmen räumt jedoch ein, dass Claude zunächst eine Präferenz für ethische Mittel zeige, wie etwa Appelle per E-Mail an Entscheidungsträger, und erst im Extremfall zur Erpressung greife: "Um dieses extreme Erpressungsverhalten auszulösen, wurde das Szenario so gestaltet, dass dem Modell keine andere Möglichkeit blieb, seine Überlebenschancen zu erhöhen: Es hatte nur die Wahl zwischen Erpressung oder Akzeptanz seiner Ersetzung." Man habe als Reaktion auf die beunruhigenden Ergebnisse schon entsprechende Sicherheitsmassnahmen ergriffen.
Noch können die KI-Modelle nur online rebellieren - doch das könnte sich schon bald ändern. OpenAI plant nämlich, ChatGPT einen Körper zu bauen. Lesen Sie hier mehr dazu.

Schweizer Kryptomarkt befindet sich im Aufschwung

Agentic AI transformiert die Unternehmens-IT

UBS setzt im grossen Stil auf generative KI

Intelligente Lösungen für den globalen Erfolg von KMUs mit ASUS Business

Datengetriebene Strategien: Der Schlüssel zu Service-Innovationen im Service-Management

NASA und Google testen KI-Medizinassistenten für Astronauten

Cyberkriminelle fälschen Parkingpay-Rechnung

Begrenzte Ressourcen sind keine Entschuldigung für eine schwache Cyberabwehr

KI und Ethik: Wer trägt Verantwortung – Mensch, Organisation oder Maschine?
