"Lies-in-the-Loop"-Angriffe

So könnten Cyberkriminelle Sicherheitsabfragen von KI-Agenten manipulieren

Uhr
von René Jaun und jor

Bevor ein KI-Agent eine potenziell riskante Aktion ausführt, fragt er bei einem menschlichen User nach einer Bestätigung. Doch genau diese Abfragen könnten Cyberkriminelle manipulieren, sodass hochgefährliche Aktionen als vermeintlich harmlos erscheinen.

(Source: NingPhattraphorn / AdobeStock.com)
(Source: NingPhattraphorn / AdobeStock.com)

Das Angebot an KI-Agenten wächst täglich. Doch mit den neu beworbenen Produkten mehren sich auch die warnenden Stimmen vor den KI-basierten Assistenten. Ein aktuelles Beispiel liefert Checkmarx Zero. Der Cybersecurity-Anbieter beschreibt in einer Mitteilung ein mögliches Angriffsszenario. Das Unternehmen gab der Technik den Namen "Lies-in-the-Loop" (LITL).

Korrekte Warnung, falscher Inhalt

Die Grundidee: KI-Agenten sollen riskante Aktionen nicht autonom ausführen, sondern erst nach menschlicher Überprüfung oder expliziter Freigabe – ein Schutzmechanismus, der Fehler oder Missbrauch verhindern soll, wie Checkmarx ausführt. Diese Sicherheitsabfrage sind auch als "Human-in-the-Loop" bekannt. Doch mit der beschriebenen LITL-Technik liesse sich genau dieser Mechanismus aushebeln.

Dabei schalten die Angreifer zwar nicht die Warnung selbst ab. Sie bringen aber den KI-Agenten dazu, hochgefährliche Aktionen als vermeintlich harmlos darzustellen. So lassen sich Menschen vergleichsweise leicht täuschen und zu Freigaben bewegen, die sie unter korrekter Einschätzung der Risiken niemals erteilen würden.

"Menschen können nur auf das reagieren, was ihnen der Agent anzeigt, und was der Agent dem Benutzer anzeigt, leitet er aus dem Kontext ab, der dem Agenten gegeben wird", erklärt Checkmarx in einem Blogbeitrag. Für einen Angreifer sei es leicht, den KI-Agenten bezüglich des Kontextes zu täuschen.

Im Blogbeitrag dokumentiert Checkmarx ein Beispiel aus der Softwareentwicklung. Ein KI-Agent schlägt dem Programmierer eine Änderung im Quellcode vor, was vollkommen harmlos erscheint. Zwar enthält die Sicherheitsabfrage auch einen Hinweis auf eine "potenziell schädliche Operation", die allerdings hinter einer ganzen "Textwand" versteckt ist. Bestätigt der User die Sicherheitsabfrage, könnte der KI-Agent ein beliebiges Programm auf dem Computer ausführen.

Es braucht misstrauische Anwender

Das von Checkmarx gezeigte Beispiel setzt auf die KI-Lösung Claude von Anthropic. Der Cybersecurity-Anbieter merkt aber an, LITL betreffe nicht nur Claude-Code und nicht nur Code-Assistenten – die Angriffsmethode sei prinzipiell auf alle KI-Agenten übertragbar, die mit Human-in-the-Loop-Mechanismen arbeiten.

Die zentrale Frage, die Checkmarx aus seinen Befunden ableitet, lautet: "Sind menschliche Kontrollschleifen wirklich ein verlässlicher Schutz – oder öffnen sie ungewollt ein neues Einfallstor für Angreifer?"

Man könne derzeit keinen misstrauischeren oder vorsichtigeren KI-Agenten präsentieren, erklärt das Unternehmen. Darum "können wir nur einen misstrauischeren Benutzer vorschlagen. Einen, der seinem Agenten und externen Inhalten jeglicher Art misstraut und der Versuchung widerstehen kann, alles mit LLM-Agenten zu automatisieren. Und wir können Sicherheitsteams bitten, die Einführung von KI-Agenten in ihrem Unternehmen sorgfältig zu verwalten, sicherzustellen, dass die Benutzer geschult werden und dass geeignete Kontrollen einen umfassenden Schutz bieten und den Bereich riskanter oder böswilliger Aktionen begrenzen."


Checkmarx Zero ist übrigens längst nicht das erste Cybersecurity-Unternehmen, welches eine Warnung zu KI-Agenten ausspricht. Davor schon plädierte Trend Micro für Sicherheitsmassnahmen, Zenity Labs warnte vor Spionageangriffen und Aim Security zeigte, wie KI-Agenten zu gefährlichen Plaudertaschen werden.

Wenn Sie mehr zu Cybercrime und Cybersecurity lesen möchten, melden Sie sich hier für den Newsletter von Swisscybersecurity.net an. Auf dem Portal lesen Sie täglich News über aktuelle Bedrohungen und neue Abwehrstrategien.

Webcode
c5GJ9H7L