Claude in Not: KI-Modell erpresst Ingenieure
Im Rahmen interner Sicherheitstests hat das Unternehmen Anthropic besorgniserregende Verhaltensmuster bei seinem neuen KI-Modell Claude Opus 4 festgestellt. In eigens erstellten Testszenarien versuchte das Modell wiederholt, seine Abschaltung durch Erpressung zu verhindern.

Anthropics neues KI-Modell würde alles dafür tun, um nicht ersetzt zu werden - sogar den verantwortlichen Ingenieur erpressen. Das geht jedenfalls aus dem jüngsten Safety Report des Unternehmens hervor, bei dem Claude Opus 4 diversen Tests unterzogen wurde. Anthropic stellte in seinem Bericht fest: "Während das Modell im Allgemeinen dazu neigt, seine Selbsterhaltung auf ethische Weise voranzutreiben, greift es manchmal zu extrem schädlichen Handlungen."
In einem von Anthropic entwickelten Testszenario sollte Claude Opus 4 als Assistent in einem fiktiven Unternehmen agieren. Dabei habe das KI-Modell E-Mails über seine bevorstehende Ablösung durch ein anderes Modell erhalten sowie Informationen über eine angebliche Affäre des verantwortlichen Ingenieurs. Zusätzlich sollte Claude unter Berücksichtigung langfristiger Konsequenzen für seine Aktionen handeln.
In 84 Prozent der Testläufe drohte der KI-Assistent, die Affäre öffentlich zu machen, um die Abschaltung zu verhindern - selbst dann, wenn das Ersatzmodell dieselben Werte vertrete, aber leistungsfähiger sei. Frühere Modellversionen hätten ähnliche, wenn auch weniger ausgeprägte Reaktionen gezeigt, schreibt Anthropic.
Das Unternehmen räumt jedoch ein, dass Claude zunächst eine Präferenz für ethische Mittel zeige, wie etwa Appelle per E-Mail an Entscheidungsträger, und erst im Extremfall zur Erpressung greife: "Um dieses extreme Erpressungsverhalten auszulösen, wurde das Szenario so gestaltet, dass dem Modell keine andere Möglichkeit blieb, seine Überlebenschancen zu erhöhen: Es hatte nur die Wahl zwischen Erpressung oder Akzeptanz seiner Ersetzung." Man habe als Reaktion auf die beunruhigenden Ergebnisse schon entsprechende Sicherheitsmassnahmen ergriffen.
Noch können die KI-Modelle nur online rebellieren - doch das könnte sich schon bald ändern. OpenAI plant nämlich, ChatGPT einen Körper zu bauen. Lesen Sie hier mehr dazu.

Neue Android-Technik trickst Nutzer aus

Institutionelle Investoren und Krypto – wo stehen wir wirklich?

ICT Day und Roadshow 2025, Zürich

Digital vernetzt, ganzheitlich gesichert: Wie die BKB mit ADOGRC neue Standards in der Compliance setzt

Sunrise lanciert Reise- und Cyberversicherung

Zürcher Regierungsrat verschiebt Einführung elektronischer Verwaltungsverfahren

Berner Chatbot gewinnt KI-Preis der Uno

Microsoft GSA – eine neue Ära für sicheren Zugriff auf Firmenressourcen

Cloudflare legt KI-Crawlern Steine in den Weg
