News

KI-Agenten sind keine Chatbots: Sie handeln autonom, nutzen Werkzeuge und treffen eigenständige Entscheidungen. Doch mit jeder zusätzlichen Fähigkeit steigt das Schadenspotenzial durch Prompt Injection. Ein Denkmodell aus der Forschung hilft, die Grenze zwischen Nutzen und Gefahr zu ziehen.

Udo Schneider, Governance, Risk & Compliance Lead, Europe, TrendAI. (Source: zVg)

KI-Agenten sind ein absolutes Hype-Thema. Gleichzeitig sind sie für Nutzerinnen und Nutzer immer einfacher zugänglich: Bereits mit lokalen LLM-Apps, KI-Browsern oder Vibe-Coding-Tools haben sie die Möglichkeit, eigene Agenten zu erstellen und zu nutzen.

Vom Chatbot zum Agenten

Was diese KI-Agenten von Chatbots unterscheidet, lässt sich in einem Wort zusammenfassen: Agency. Im Gegensatz zu einem Chatbot, der lediglich auf Eingaben reagiert, interagiert ein Agent aktiv mit seiner Umgebung: Er ruft APIs auf, delegiert an Subagenten und entscheidet eigenständig über den Lösungsweg. Je mehr Fähigkeiten einem Agenten gegeben werden, desto grösser ist sein Schadenspotenzial.

Wie gefährlich das werden kann, zeigte OpenClaw: ein Agent mit vollem Systemzugriff, bei dem Sicherheitsforscher in 13,4 Prozent aller Skills kritische Schwachstellen fanden. Eine Zero-Click-Schwachstelle in Claude Desktop (CVSS 10/10) bewies zudem, dass auch kommerzielle Produkte nicht vor Prompt Injection gefeit sind.

Simon Willison beschreibt das Kernproblem als "lethal trifecta". Sobald ein Agent erstens Zugang zu vertraulichen Daten hat, zweitens nicht vertrauenswürdige Inhalte verarbeitet und drittens nach aussen kommunizieren kann, kann er dazu verleitet werden, auch private Daten nach aussen zu geben. LLMs können die Herkunft von Anweisungen einfach nicht zuverlässig beurteilen.

Daraus lässt sich die "Rule of Two" ableiten: Ein Agent sollte nicht mehr als zwei dieser drei Fähigkeitsklassen in einer Sitzung vereinen. Solange nur zwei zusammenkommen, bleibt das Risiko beherrschbar.

Das Problem: Leistungsfähigkeit wächst gerade durch die Kombination aller drei Klassen. Wer einschränkt, beschneidet in der Regel auch den Nutzen.

Identität und Gedächtnis als blinde Flecken

Nicht nur die Fähigkeiten selbst sind problematisch, sondern auch die Zugriffsrechte: Persönliche Agenten erben oft die vollen Rechte ihres Nutzers: Vergleichbar mit einem Praktikanten, der am ersten Tag den Generalschlüssel erhält. Statische API-Keys verschärfen das Problem, da sie keine kontextabhängige Zugriffskontrolle ermöglichen. Modernes IAM setzt stattdessen auf kurzlebige Credentials nach dem Just-in-Time-Prinzip.

Das Langzeitgedächtnis wird dabei oft vernachlässigt. Das Gedächtnis als weitestgehend vierte Fähigkeitsklasse kann die Rule of Two unterlaufen, weil die eingeschleusten Instruktionen erst in einer späteren Sitzung "explodieren": eine verzögerte Prompt Injection, die zum Zeitpunkt der Einschleusung harmlos erscheint.

Fazit: Pragmatismus statt Verbote

Es gibt keine Universallösung. Prompt Injection bleibt ein grundlegendes, ungelöstes Problem aller LLMs. Die Rule of Two ist dabei eine Ergänzung und kein Ersatz für bewährte Prinzipien wie Least Privilege. In der Praxis bedeutet das: risikobasierte Bewertung statt pauschaler Verbote, differenzierte Agenten mit abgestuften Berechtigungen und ein gesundes Misstrauen gegenüber dem Versprechen, ein einzelner Agent könne alles sicher erledigen. Denn sobald man Werkzeuge eigenständig kombiniert, kann kein Anbieter mehr Schutz garantieren.

Erfahren Sie hier mehr, wie Sie KI-Systeme sicher betreiben können!

"Nachträgliche Sicherheit ist in der Regel nicht erfolgreich"

Agentic AI verändert das Spiel: Statt nur Antworten auszugeben, planen und handeln KI-Agenten eigenständig über mehrere Systeme hinweg – mit mächtigen Tools, Langzeitgedächtnis und hoher Autonomie. Das macht sie extrem nützlich, aber auch zu einem wichtigen Thema für die Cybersecurity. Interview: Dylan Windhaber

Agentic AI ist derzeit in aller Munde. Was genau unterscheidet agentische Systeme von klassischen KI-Anwendungen?

Udo Schneider: Der zentrale Unterschied liegt eben in der "Agency". Ein KI-Agent agiert eigenständig: Er ruft APIs auf, nutzt Werkzeuge, delegiert Aufgaben an andere Agenten und trifft Entscheidungen. Er plant, entscheidet und handelt in mehreren Schritten und Systemen, oft im Namen der User. Ausserdem verfügt er über ein Gedächtnis, das über einzelne Sitzungen hinausgeht und es ihm ermöglicht, aus früheren Interaktionen zu lernen. All dies macht diese Systeme wesentlich leistungsfähiger als herkömmliche KI-Anwendungen, aber auch anfälliger für Risiken.

Welche Sicherheitsprobleme tauchen dabei auf?

Die OWASP-Top-10 für agentische Anwendungen deckt eine breite Vielfalt ab: vom Agent Goal Hijack, also der Manipulation von Agentenzielen durch Prompt Injection, über Tool-Missbrauch und Identitätsprobleme bis hin zu Memory Poisoning und kaskadierenden Fehlern in Multi-Agenten-Systemen. Ein Beispiel: Model Context Protocol, kurz MCP, wird als "USB für KI" beworben. Es ermöglicht aber auch, gefährliche Fähigkeiten in einem einzigen Tool zu kombinieren. Ein Exploit des MCP-Servers von Github hat genau dies gezeigt: Ein einziges Tool konnte öffentliche Issues lesen, auf private Repositories zugreifen und Pull Requests erstellen. Das ist die ideale Kombination für Datenexfiltration.

Woher rühren diese Probleme, und wie kann man sich schützen?

Das Grundproblem liegt in der "Lethal Trifecta": Sobald ein Agent Zugriff auf vertrauliche Daten hat, nicht vertrauenswürdige Inhalte verarbeitet und nach aussen kommuniziert, kann er zur Datenexfiltration missbraucht werden. Das Hauptproblem dabei ist, dass LLMs nicht zuverlässig erkennen können, woher ein Befehl stammt. Die "Rule of Two" unterbricht diese Angriffskette. Das Langzeitgedächtnis von Agenten kann die Regel jedoch umgehen, wenn sich eingeschleuste Befehle erst in späteren Sitzungen manifestieren. Dann bietet die zeitliche Trennung der Fertigkeiten keinen Schutz mehr.

Gibt es auch konkrete Handlungsanweisungen?

OWASP schlägt für jedes Risiko konkrete Massnahmen vor. Ein zentrales Prinzip ist "Least Agency", das über "Least Privilege" hinausgeht. Es geht dabei nicht nur um minimale Berechtigungen, sondern darum, unnötige Autonomie ganz zu vermeiden. Unnötiges Agentenverhalten vergrössert die Angriffsfläche ohne Nutzen. Dazu gehört auch die Überprüfung von IAM-Systemen: Sie müssen heute in der Lage sein, kurzlebige, aufgabenbezogene Berechtigungen für Agenten auszustellen, statt nur statischer API-Keys. Ebenso werden regulatorische Rahmenbedingungen künftig strengere Anforderungen an agentenbasierte Systeme stellen. So wird der EU AI Act auch Auswirkungen auf Schweizer Unternehmen haben. Darüber hinaus ist zukünftig auch mit spezifisch schweizerischer Gesetzgebung zum Thema zu rechnen.

Was würden Sie abschliessend empfehlen?

Keine Panik! Agentische Systeme sind grundsätzlich verteilte Systeme, ähnlich wie Microservices-Architekturen. Wir wissen, wie man diese Systeme absichert: durch Telemetrie, Zugriffskontrolle, Sandboxing und Zero-Trust-Modelle. Es gibt spezifische Aspekte wie Speicherverwaltung oder Kommunikation zwischen Agenten, aber auch dafür gibt es Lösungen, sowohl Open Source als auch kommerzielle. Wichtig ist, die Sicherheit von Anfang an zu berücksichtigen, auch wenn es in der heutigen Hektik schwierig erscheint. Denn nachträgliche Sicherheit ist in der Regel nicht erfolgreich.

Artikel teilen: