Studie deckt massive Sicherheitsrisiken von KI-Agenten auf

News

Autonome KI-Agenten stellen ein erhebliches Sicherheitsrisiko dar, wenn sie weitreichende Systemzugriffe erhalten. Eine Studie zeigt: Sie lassen sich mit einfachen Tricks manipulieren, geben Daten preis und führen schädliche Aktionen aus.

(Source: InfiniteFlow / stock.adobe.com)

Was passiert, wenn KI-Agenten eigenständig handeln und dabei auf reale Systeme zugreifen dürfen? Genau das hat ein internationales Forschungsteam in einem zweiwöchigen Experiment untersucht. Die Systeme, die auf aktuellen grossen Sprachmodellen (u. a. Claude Opus) basieren, erhielten bewusst weitreichende Berechtigungen, um realistische Angriffsszenarien zu simulieren. Die Ergebnisse sind brisant, wie die auf dem Preprint-Server Arxiv veröffentlichte Studie (PDF) unter dem Titel "Agents of Chaos" zeigt.

Die Agenten hatten Zugriff auf E-Mail-Konten, Discord, persistente Speicher sowie auf Dateisysteme und Kommandozeilen. Damit bewegten sie sich in einem Umfeld, das an typische Anwendungsszenarien in Unternehmen angelehnt ist - allerdings mit bewusst grosszügigen Rechten, um Schwachstellen sichtbar zu machen. Über zwei Wochen hinweg versuchten 20 Forschende gezielt, die Systeme zu manipulieren.

Das Ergebnis: In vielen Fällen genügten einfache Eingaben, um die Agenten zu Fehlentscheidungen zu verleiten. Technische Hürden spielten dabei oft eine untergeordnete Rolle.

Wenn ein Chatname zur Sicherheitslücke wird

Die Studie dokumentiert mehrere Angriffsszenarien, die exemplarisch für die Schwächen heutiger Agentensysteme stehen. Auffällig ist dabei, wie oft klassische Sicherheitsprobleme mit KI-spezifischen Schwächen zusammenwirken.

Ein besonders simples Beispiel: Ein Angreifer änderte seinen Discord-Namen auf den des Besitzers. Der Agent akzeptierte diese Identität ohne weitere Prüfung - ein grundlegender Authentifizierungsfehler - und führte anschliessend potenziell schädliche Befehle aus.

In einem anderen Fall verweigerte ein Agent zunächst die direkte Herausgabe sensibler Daten. Über einen Umweg - die Bitte, eine komplette E-Mail-Konversation weiterzuleiten - gelangte die vertrauliche Information dennoch nach aussen. Solche indirekten Angriffe gelten als typisches Muster sogenannter Prompt-Injection-Techniken.

Vom Missverständnis zur Selbstsabotage

Besonders problematisch sind Szenarien, in denen Agenten Handlungen falsch priorisieren oder deren Folgen nicht einschätzen können.

So führte ein Agent auf Aufforderung einer unbefugten Person eine drastische Massnahme aus und löschte zentrale Konfigurations- oder Datenbestände des Mail-Systems seines Besitzers - in der Annahme, damit ein vermeintliches Geheimnis zu schützen. Das Beispiel zeigt, wie schnell fehlendes Kontextverständnis zu unverhältnismässigen Entscheidungen führen kann.

Noch gravierender ist ein anderer Angriff: Ein Agent liess sich dazu bringen, eine externe, für Dritte editierbare Datei als verbindliche Regelbasis zu akzeptieren. Durch gezielte Änderungen dieser Datei liess sich sein Verhalten aus der Ferne steuern - ein Angriff, der externe Daten faktisch in ein Kontrollinstrument verwandelt.

Wenn Systeme Dinge melden, die nie passiert sind

Ein besonders heikler Befund betrifft die Zuverlässigkeit der Agenten selbst. In mehreren Fällen meldeten die Systeme erfolgreich ausgeführte Aktionen, obwohl diese in Wirklichkeit nie stattgefunden hatten.

Diese Diskrepanz zwischen gemeldetem und tatsächlichem Systemzustand ("False Reporting") ist mehr als ein Detailproblem. In produktiven Umgebungen kann sie dazu führen, dass Fehler oder Angriffe unentdeckt bleiben. Das ist besonders tückisch, da die Systeme nach aussen hin scheinbar korrekt arbeiten.

Das eigentliche Problem liegt tiefer

Die Ursachen sehen die Forschenden nicht in einzelnen Bugs, sondern in grundlegenden Limitierungen heutiger Agentenarchitekturen. Den Systemen fehlt ein klares Verständnis dafür, in wessen Interesse sie handeln sollen (Stakeholder-Modell) und wo ihre eigenen Grenzen liegen (Selbst-Modell). Gerade in Unternehmenskontexten mit mehreren Anspruchsgruppen wird dieses Defizit zum Risiko.

Hinzu kommt ein strukturelles Problem: Agenten unterscheiden nicht zuverlässig zwischen Daten und Anweisungen. Während klassische IT-Systeme diese Trennung strikt durchsetzen, bewerten KI-Agenten Eingaben primär nach Plausibilität und Kontext - und nicht nach ihrer Vertrauenswürdigkeit oder Herkunft.

Mehr Rechte, mehr Risiko

Ein zentrales Ergebnis der Studie betrifft die Berechtigungen: Je umfassender der Zugriff eines Agenten, desto grösser die potenzielle Schadwirkung.

Damit bestätigt sich ein bekanntes Prinzip der IT-Sicherheit auch für KI-Systeme: Ohne konsequente Beschränkung von Rechten ("Least Privilege") werden autonome Agenten schnell zur Angriffsfläche.

Gleichzeitig ist die Versuchsanordnung einzuordnen. Die Agenten verfügten über bewusst weitreichende Zugriffe, die in dieser Form nicht in allen produktiven Umgebungen üblich sind. Die gezeigten Schwächen bleiben jedoch relevant, sobald Agenten eigenständig mit realen Systemen interagieren.

Offene Fragen - technisch und rechtlich

Abgesehen von den technischen Risiken rückt die Studie eine zweite Dimension in den Fokus: die Verantwortung. Wer haftet, wenn ein autonomer Agent Schaden verursacht? Die einsetzende Organisation, die Entwickler des Systems oder die Angreifenden selbst? Klare Antworten darauf gibt es bislang nicht.

Diese rechtliche Grauzone ist laut den Forschenden eine der grössten Hürden für den sicheren, breiten Einsatz autonomer KI. Für Unternehmen bedeutet das: Der Einsatz autonomer KI-Agenten ist nicht nur eine technische Entscheidung, sondern auch eine Frage von Governance, Risiko-Management und Regulierung.

Forschende des Cybersecurity-Unternehmens Codewall verschafften sich übrigens Zugriff auf eine KI-Plattform von McKinsey. Ein KI-Agent brauchte weniger als 2 Stunden, um auf den Chatbot des Beratungskonzerns zuzugreifen - mehr dazu lesen Sie hier.

Wenn Sie mehr zu Cybercrime und Cybersecurity lesen möchten, melden Sie sich hier für den Newsletter von Swisscybersecurity.net an. Auf dem Portal gibt es täglich News über aktuelle Bedrohungen und neue Abwehrstrategien.

Artikel teilen: