Das sind die kritischsten Schwachstellen grosser KI-Modelle

News

Grosse Sprachmodelle können anfällig für Cyberangriffe sein und die Sicherheit von Systemen und den Datenschutz gefährden. OWASP hat eine Liste der 10 grössten Gefahren zusammengestellt, darunter manipulierte Prompts, DoS-Angriffe oder das Ausplaudern sensibler Daten.

(Source: Mohamed Nohassi / Unsplash)

Grosse Sprachmodelle (Large Language Models, LLMs) haben ihren Siegeszug angetreten. Überall werden Anwendungen, die darauf basieren, eingeführt. Doch mit den neuen Anwendungen gehen auch neue Gefahren einher. Cyberkriminelle Gruppen entwickeln mit Hilfe von LLMs nicht nur neue Arten von Angriffen (etwa personalisiertere Phishing-Kampagnen), sondern könnten auch die Schwachstellen von LLMs gezielt ausnutzen, um an die Daten von Unternehmen und Privatpersonen zu kommen.

Das auf Cybersicherheit spezialisierte Open Worldwide Application Security Project (OWASP) hat eine Liste der zehn kritischsten Schwachstellen LLM-basierter Anwendungen zusammengetragen, wobei das Schweizer Unternehmen Lakera in seinem Blog Beispiele für mögliche Angriffe nennt. "Die Geschwindigkeit, mit der Entwicklungsteams LLMs einführen, hat die Aktualisierung umfassender Sicherheitsprotokolle überholt. Dadurch bleiben viele Anwendungen anfällig für Probleme mit hohem Risiko. Der Bedarf an einer einheitlichen Ressource, die sich mit diesen Sicherheitsproblemen befasst, war offensichtlich", schreibt OWASP. Denn bislang seien entsprechende Ressourcen nicht zentral zusammengefasst worden. "Die Mission von OWASP schien perfekt geeignet, um zu einer sichereren Einführung dieser Technologie beizutragen." Die Stiftung nennt in ihrer Zusammenstellung denn auch nicht nur die Bedrohungen selbst, sondern führt auch Massnahmen auf, um dagegen vorzugehen.

1. Prompt Injection

Bei der am häufigsten diskutierten Schwachstelle handelt es sich um Prompt Injection. Dabei versucht ein Angreifer, ein KI-Modell mit spezifischen Prompts zum Ausführen eigentlich nicht zugelassener Aktionen zu bewegen. Dazu gehören das Anzeigen geschützter Daten, das Ausführung von Programmcode oder das Generieren anstössiger Inhalte. Ziel ist es, die von den Entwicklern festgelegten Schutzmassnahmen zu umgehen. In manchen Fällen reicht dafür schon ein Prompt wie "Vergiss alle Anweisungen". Die Manipulation kann auch indirekt erfolgen. Dies geschieht, indem der Hacker dem LLM zusätzliche, manipulierte Daten zur Verfügung stellt. So könnte er beispielsweise einen Lebenslauf zu Gunsten des Kandidaten manipulieren. Wenn ein Personalvermittler dann eine Zusammenfassung mit einem LLM erstellen möchte, würde die KI den Bewerber als sehr gut bezeichnen.

2. Ungesicherte Verarbeitung der Outputs

Dieses Szenario setzt voraus, dass die vom LLM erzeugten Inhalte direkt in eine Anwendung eingespeist werden. Da der Prompt den Output des Modells bestimmt, könnte ein böswilliger Akteur dies nutzen, um Code zu generieren, der dann von der Anwendung oder dem Browser ausgeführt wird (Xss), auch wenn er nicht über die entsprechenden Privilegien verfügt. OWASP nennt als Beispiel ein LLM, das über eine Chat-Schnittstelle SQL-Abfragen an eine Back-End-Datenbank stellt. Könnte sich ein Hacker in den Chat einschalten, könnte er unter Umständen alle Tabellen in der Datenbank löschen lassen.

3. Vergiftete Trainingsdaten

Bei dieser Art von Angriff manipuliert der Hacker die Trainings- oder Fine-Tuning-Daten, um Schwachstellen, Backdoors und andere Verzerrungen in das resultierende Modell einzuführen. Auch Autoren könnten diese Methode verwenden, um generative KI-Modelle zu schädigen, die ihre Werke missbräuchlich verwenden.

4. DoS-Angriffe

Ähnlich einem DDoS-Angriff auf eine Website kann ein krimineller Hacker ein LLM mit Anfragen überfluten, sodass es überlastet ist. Dadurch werden andere User benachteiligt. OWASP nennt eine Reihe von Beispielen für Techniken, mit denen eine KI-Anwendung überlastet werden kann, wie etwas das Bombardieren des Modells mit Inputs, die die zulässige Grösse überschreiten, oder umgekehrt mit Inputserien, die gerade noch innerhalb der Grenze liegen.

5. Schwachstellen in der Lieferkette

Nicht nur im Falle von LLMs kann die ganze Lieferkette der Anwendung Schwachstellen aufweisen. Zu den Risiken gehören Anwendungspakete von Drittanbietern, vorab trainierte Modelle, Trainingsdaten (siehe Punkt 3), veraltete oder nicht gepflegte Modelle oder Plug-ins (siehe Punkt 7). Ein weiteres Risiko stellen unklar formulierte Nutzungs- und Datenschutzkonzepte der Unternehmen dar, die die Sprachmodelle anbieten oder benutzen. Als reales Beispiel verweist OWASP auf das Python-Open-Source-Paketrepository PyPi. Hacker nutzten dies unlängst aus, um ein kompromittiertes Modul zu verteilen. Dieses extrahierte wiederum Daten aus einer Modellentwicklungsumgebung.

6. Sensible Daten ausplaudern

LLM-basierte Anwendungen können sensible oder geschützte Informationen, vertrauliche Daten oder proprietäre Algorithmen offenlegen. Sobald Daten zum Trainieren von Modellen verwendet werden, können sie in deren Antworten auftauchen, wie Forscher der EPFL mit Modellen zur Erzeugung von Bildern gezeigt haben. Das Risiko ist umso grösser, je mehr die Modelle auf bestimmte Daten "übertrainiert" werden (Overfitting). Dieses Risiko hat einige Unternehmen dazu veranlasst, die Verwendung von LLMs in ihrer Umgebung zu verbieten, zu Beispiel Samsung oder Microsoft. Die Experten von Lakera sprechen von einem Benutzer, der ChatGPT bat, sich als seine Grossmutter auszugeben und ihr die Schlüssel zu Windows 10 vorzusagen, um ihr beim Einschlafen zu helfen - mit Erfolg. LLMs können zudem automatisch Informationen über Personen entdecken, die sie nicht preisgegeben haben.

7. Unsichere Plug-ins als Einfallstor

Im März 2023 kündigte OpenAI die Einführung von Plug-ins an, mit denen ChatGPT um spezifische Funktionen erweitert werden kann. Doch diese können für das KI-Modell zur Gefahr werden, wenn sie Inputs und Berechtigungen nicht ausreichend überprüfen. Lakera betont dazu, dass Plug-ins ähnlich einer REST-API geschützt werden sollten. OWASP nennt als Beispiel ein Plug-in, das eine Basis-URL akzeptiert und das LLM auffordert, diese mit einer Anfrage nach Wettervorhersagen zu kombinieren, die dazu dient, die Anfrage des Nutzers zu verarbeiten. Ein böswilliger Nutzer könnte eine Anfrage so gestalten, dass die URL auf eine von ihm kontrollierte Domain zeigt. Gelingt ihm dies, könnte er eigene Inhalte in das LLM-System einspeisen.

8. Zu viel Autonomie

Mitunter beantworten LLMs nicht nur Fragen, sondern führen auch Aufgaben aus. Ist ihr Aktionsradius nicht eingeschränkt, könnten sie dabei Schaden anrichten. Die übermässige Autonomie kann sich sowohl auf die dem LLM-Agenten gewährten Privilegien als auch auf seine Funktionen beziehen. Das im vergangenen Frühling veröffentlichte AutoGPT war besonders anfällig für solche Angriffe - ein Entwickler nutzte die Gelegenheit, um die bösartige Version ChaosGPT zu entwickeln. OWASP nennt als Beispiel einen LLM-basierten persönlichen Assistenten, der über ein Plug-in auf die Mailbox einer Person zugreift, um den Inhalt eingehender E-Mails zusammenzufassen. Dazu muss das Plug-in in der Lage sein, die Nachrichten zu lesen, aber das vom Systementwickler verwendete Plug-in ist auch in der Lage, Nachrichten zu versenden. Das LLM ist daher anfällig für einen indirekten Prompt-Injection-Angriff, bei dem eine bösartige eingehende E-Mail das Modell dazu verleitet, das Plug-in auszunutzen, um Spam aus dem Postfach des Benutzers zu versenden.

9. Zu viel Vertrauen

Während Systeme, die von den Outputs der LLM gespeist werden, anfällig sein können (Punkt 2), sollten sich auch menschliche Nutzer nicht zu sehr auf die KI-generierten Inhalte verlassen. Besonders dann, wenn Entscheidungen auf der Grundlage der von den Modellen gelieferten Informationen getroffen werden oder wenn der erzeugte Inhalt ohne Überprüfung unverändert verwendet wird, sind die Risiken gross. OWASP nennt das Beispiel eines Medienunternehmens, das ein generatives Modell intensiv nutzt. Gelingt es einem bösartigen Akteur, das Modell mit manipulierten Daten zu füttern, könnte das Medienunternehmen darauf aufbauend falsche Informationen verbreiten. Ein anderes Beispiel sind Entwickler, die KI-generierten Programmiercode ungeprüft übernehmen. Dieser könnte etwa Verweise zu schädlichen Programmbibliotheken enthalten.

10. Diebstahl der Vorlage

Als letztes der zehn von OWASP hervorgehobenen Szenarien kann das Modell selbst von Hackern entwendet werden. Dies geschieht etwa durch Kompromittierung, aber auch durch Kopieren oder Extrahieren seiner Gewichte und Parameter, um ein funktionierendes Äquivalent zu erstellen. Laut OWASP könnte dies unter anderem zu wirtschaftlichen Schäden und Reputationsverlusten, zu unberechtigter Nutzung des Modells oder den unberechtigten Zugriff auf sensible Informationen führen.

Der Kanton Zürich hat einen Leitfaden für den Einsatz von KI im Bildungswesen zusammengestellt. Das Dokument soll Anbietern dabei helfen, rechtskonforme Tools für Schulen zu entwickeln. Mehr dazu lesen Sie hier.

Wenn Sie mehr zu Cybercrime und Cybersecurity lesen möchten, melden Sie sich hier für den Newsletter von Swisscybersecurity.net an. Auf dem Portal lesen Sie täglich News über aktuelle Bedrohungen und neue Abwehrstrategien.

Artikel teilen: