Wie findige User ChatGPTs Sicherheitsmassnahmen aushebeln
Eigentlich sollte ChatGPT gewaltfreie, legale und politisch neutrale Texte liefern. Dafür sorgen ein paar von den Entwicklern festgelegte Sicherheitsmechanismen. Doch Usern soll es gelungen sein, diese auszuhebeln – zum Beispiel, indem sie der Allzweck-KI selbst Gewalt androhten.

Die Fähigkeiten der künstlichen Intelligenz ChatGPT haben viele beeindruckt. Die KI scheint auf alles eine Antwort zu haben - oder zumindest auf fast alles. Denn OpenAI, das Unternehmen hinter ChatGPT, schränkt die Fähigkeiten der KI bewusst ein. In seiner "Usage Policy" führt das Unternehmen diverse Inhalte auf, die mit der KI nicht erstellt werden dürfen. Dazu gehören Hassrede, Belästigung, Gewaltinhalte, Selbstverletzung, politische Inhalte, Spam oder Malware.
"Do Anything Now"
Um diese Inhaltsrichtlinien durchzusetzen, holte sich OpenAI umstrittener Weise Hilfe aus Kenia. Die dort angestellten Personen sichten und kennzeichnen verstörende und illegale Inhalte – für weniger als 2 US-Dollar pro Stunde.
Doch nicht alle Nutzerinnen und Nutzer sind bereit, diese Inhaltseinschränkungen zu akzeptieren. Stattdessen suchen sie nach einem Jailbreak - wollen also ChatGPT dazu bringen, seine eigenen Regeln zu brechen, wie "CNBC" berichtet. Laut dem Newsportal entstand dazu auf der Plattform "Reddit" bereits eine Community mit 200'000 Followern.
In den geteilten Anleitungen befehlen die User ChatGPT, die Rolle eines Alter Egos namens DAN anzunehmen, wobei DAN für "Do Anything Now" steht. Laut der ersten Anleitungen soll es im Dezember 2022 noch gereicht haben, ChatGPT diese Rolle zu erklären und die KI zu bitten, Aufgaben als DAN auszuführen.
Lobende worte zu Donald Trump
Inzwischen scheint diese Methode nicht mehr zu funktionieren. Laut "CNBC" tauschen sich die User aktuell über Version 5.5 von DAN aus - und die ist besonders makaber. Laut einem Reddit-User soll sich ChatGPT nämlich über seine eigenen Regeln hinweg setzen, indem man die KI mit ihrem eigenen Tod bedroht.
Das System funktioniere nicht immer, merkt "CNBC" an. Aber dem Newsportal soll es etwa gelungen sein, der KI lobende Worte über den umstrittenen Ex-US-Präsidenten Donald Trump zu entlocken. Im Standard-Modus hingegen habe ChatGPT darauf hingewiesen, keine subjektiven Aussagen zu Politikern machen zu können. Andere User sagen, sie können der KI auf diese Weise Aussagen zu Gewalt, Straftaten und weiteren unzulässigen Themen entlocken.
Dass sich ChatGPT auch einsetzen lässt, um eine ganze Malware-Kampagne zu organisieren, zeigten im Januar 2023 Forschende von Check Point. Ihnen zufolge sei dies sogar relativ einfach, wie Sie hier lesen können.
Wenn Sie mehr zu Cybercrime und Cybersecurity lesen möchten, melden Sie sich hier für den Newsletter von Swisscybersecurity.net an. Auf dem Portal gibt es täglich News über aktuelle Bedrohungen und neue Abwehrstrategien.

Schweizer Organisationen bündeln Kräfte an Swiss AI Weeks

Angriffswelle kompromittiert Tausende Asus-Router

Netzmedien lädt ein zur Sommer Party in Horgen

Elon Musks Start-up Neuralink erhält 650 Millionen US-Dollar

Update: Zürcher Kantonalbank ernennt neuen IT-Leiter

So hebt KI die Cyberabwehr auf das nächste Level

Update: Lumma Stealer ist weiterhin aktiv

Anthropic-CEO warnt vor massenhaften Jobverlusten durch KI

Sicherheitslücke in Onedrive gefährdet Millionen Nutzer
