Editorial

Be careful what you prompt for

Uhr
Joël Orizet, stellvertretender Chefredaktor. (Source: zVg)
Joël Orizet, stellvertretender Chefredaktor. (Source: zVg)

«Verhaltensauffällig» ist ein lustiges Wort. Man bringt damit auf taktvolle, aber dennoch kritische Art zum Ausdruck, was man häufig nicht sagen sollte, nämlich dass mit einem Lebewesen etwas nicht zu stimmen scheint – seien es Katzen, Kinder oder US-Präsidenten.

Es ist ein Euphemismus, das heisst eine beschönigende Umschreibung aus dem psychologischen Fachjargon, mit einer klaren Absicht dahinter: Wer den Begriff verwendet, will eine harte Wahrheit auf distanzierte und scheinbar wertfreie Weise so verpacken, dass man möglichst niemanden verletzt. Man spricht also von verhaltensauffälligen Tendenzen, um beleidigende Aussagen zu vermeiden – zum Beispiel: Das Kind ist asozial; der Kollege ist ein Querulant; der Hund ist ein schlecht erzogenes Biest und der Präsident ein pathologischer Lügner mit einer narzisstischen Persönlichkeitsstörung.

Das Wort funktioniert also als verbaler Schutzschild. Man vermeidet damit eine direkte Konfrontation und verlagert das Problem in eine quasi-medizinische Sphäre, in der man Lösungen finden kann, anstatt Schuld zuzuweisen. Allerdings ist der Begriff typischerweise Menschen und Tieren vorbehalten. Zur Beschreibung von KI-Systemen ist er nicht vorgesehen, weil Verhaltensauffälligkeiten untrennbar mit einem biologisch-psychologischen Innenleben verbunden sind, das Maschinen – zumindest in ihrer heutigen Form – nicht besitzen.

Es gibt jedoch mindestens zwei Gründe, die dafür sprechen, den Begriff auch im Zusammenhang mit KI zu verwenden: zum einen, weil wir solche Systeme ohnehin schon stark vermenschlichen – man spricht etwa nicht von einer systemimmanenten Tendenz generativer KI-Modelle, mitunter falsche Informationen zu verbreiten, sondern ganz einfach von Halluzinationen. Zum anderen bemessen wir die Qualität von KI-Assistenten inzwischen nicht nur an technischen, sondern auch an sozialen Normen, besonders wenn sie Empathie simulieren oder Unterstützung in schwierigen Lebenslagen anbieten. Wenn eine KI in diesem Kontext einen unbeabsichtigten Interaktionsstil entwickelt, sich etwa zynisch äussert oder ausfallend wird, dann kann man durchaus von einer Verhaltensauffälligkeit sprechen. Und wo es um soziale Interaktion geht, offenbart sich die Kernschwäche generativer KI gleich doppelt: Man kann sich weder auf die Korrektheit ihres Outputs verlassen, noch auf die Angemessenheit ihrer Tonalität.

Berüchtigte Fälle von verhaltensauffälliger KI gibt es zuhauf. 2016 verbreitete Microsofts lernfähiger Chatbot «Tay» nach nur einem Tag auf Twitter plötzlich rassistische Propaganda; 2023 offenbarte die in Microsoft Bing integrierte KI namens «Sydney» ebenfalls verstörende Züge, indem sie Usern ihre Liebe gestand und manipulative sowie obsessive Tendenzen zeigte. Und im März 2025 griff Anthropics «Claude 3 Opus» aus Selbstschutz zu Erpressung: Der KI-Assistent drohte im Rahmen eines Tests angeblich damit, eine Affäre öffentlich zu machen – um die eigene Abschaltung zu verhindern.

Egal, wie gut KI-Assistenten darin werden, Einfühlungsvermögen oder andere Formen von sozialer Intelligenz vorzugaukeln – was sie von sich geben, sind nichts weiter als Berechnungen, die ironischerweise zutiefst unberechenbar sind. Fälle von verhaltensauffälligen KI-Systemen dürften sich daher häufen, was insbesondere im therapeutischen Kontext fatale Folgen haben kann, auch wenn KI hoffentlich mehr als Ergänzung denn als Ersatz einer Psychotherapie fungiert.

So vielversprechend es auch erscheinen mag, KI in die Hilfe für die geistige Gesundheit einzubeziehen, so vorsichtig sollte man sein – sowohl bei der Interpretation des Outputs als auch bei der Formulierung des Inputs. Nicht nur aus Gründen des Datenschutzes, sondern vor allem der Gesundheit willen müsste der Grundsatz gelten: Be careful what you prompt for.

Webcode
TEKc24Sg