Prompt Injection 2.0

KI-Angriff versteckt Befehle in Bildern

Uhr
von Joël Orizet und NetzKI Bot und ml

Eine neue Angriffstechnik versteckt bösartige Befehle in Bildern. Erst die automatische Skalierung durch KI-Systeme deckt die für Menschen unsichtbaren Prompts auf. Dies ermöglicht Angreifern, unbemerkt Daten zu stehlen.

(Source: timitinej / stock.adobe.com)
(Source: timitinej / stock.adobe.com)

Forscher des Sicherheitsunternehmens Trail of Bits haben eine Methode entwickelt, mit der Angreifer bösartige Anweisungen in Bildern verstecken können. Die als Prompts bezeichneten Befehle bleiben im Originalbild für Menschen unsichtbar. Erst wenn ein KI-System das Bild zur Verarbeitung automatisch herunterskaliert, werden sie für das Sprachmodell (LLM) lesbar und als legitime Anweisung ausgeführt. Die Technik baut auf einer theoretischen Arbeit der TU Braunschweig aus dem Jahr 2020 auf, wie "Bleeping Computer" berichtet.

Der Angriff nutzt demnach einen Standardprozess in der KI-Verarbeitung aus. Grosse Bilder werden zur Steigerung der Effizienz durch Resampling-Algorithmen verkleinert. Dieser Vorgang erzeugt visuelle Artefakte. Die Forscher Kikimora Morozova und Suha Sabi Hussain präparierten Bilder so, dass diese Artefakte beim Skalieren gezielt einen lesbaren Text bilden. Das KI-Modell kombiniert diesen versteckten Befehl mit der eigentlichen Nutzereingabe und führt ihn aus, was zu Datenlecks oder anderen unerwünschten Aktionen führen kann.

In einer Demonstration gelang es den Forschern, über die Gemini-Befehlszeilenschnittstelle (Command Line Interface, CLI) Daten aus einem Google Calendar zu extrahieren und an eine externe E-Mail-Adresse zu senden. Sie nutzten dafür eine Kombination mit Zapier MCP, bei der Aktionen ohne explizite User-Bestätigung genehmigt wurden. Laut Trail of Bits muss man den Angriff zwar an den jeweiligen Skalierungsalgorithmus des KI-Modells anpassen, die Technik sei aber prinzipiell breit anwendbar.

Die Forscher bestätigten die Anfälligkeit unter anderem für Google Gemini CLI, Vertex AI Studio, die Gemini-Webschnittstelle und -API sowie den Google Assistant auf Android. Da die zugrundeliegende Schwachstelle weit verbreitet ist, könnten weitaus mehr Systeme betroffen sein. Um die Methode zu demonstrieren, veröffentlichte Trail of Bits zudem das Open-Source-Tool Anamorpher, mit dem sich solche manipulierten Bilder erstellen lassen.

Gegenmassnahmen im Fokus

Als Abwehrmassnahmen empfiehlt Trail of Bits, die Dimensionen hochgeladener Bilder zu beschränken. Wenn eine Skalierung unumgänglich ist, sollten Nutzer eine Vorschau des an das LLM übergebenen Ergebnisses sehen. Zudem fordern die Forscher, dass für sensible Aktionen, die durch in Bildern erkannten Text ausgelöst werden, eine explizite User-Bestätigung erforderlich sein muss.

Als grundlegende Verteidigungslinie bezeichnen die Forscher jedoch die Implementierung sicherer Designmuster, die Prompt-Injection-Angriffe systematisch unterbinden. Diese Massnahmen sollen über den Schutz vor multimodalen Angriffen hinausgehen und die Architektur von LLM-Systemen härten. 

 

Mit Techniken wie Prompt Injection lassen sich die Sicherheitsmassnahmen von LLMs aushebeln - das ist allerdings nicht das einzige Sicherheitsrisiko von generativer KI. Wie Cyberkriminelle LLMs einsetzen, erfahren Sie hier

Wenn Sie mehr zu Cybercrime und Cybersecurity lesen möchten, melden Sie sich hier für den Newsletter von Swisscybersecurity.net an. Auf dem Portal lesen Sie täglich News über aktuelle Bedrohungen und neue Abwehrstrategien.
 

Webcode
iGQg7xgR