Trainingsdaten

Grosse Plattformen verkaufen ihre User-Inhalte an KI-Entwickler – mit Folgen

Uhr
von Daniel Schurter (Watson), msc

Populäre amerikanische Online-Plattformen haben eine neue Möglichkeit entdeckt, die von den eigenen Usern (kostenlos) erstellten Inhalte zu Geld zu machen. Widerspruch zwecklos?

(Source: Timon / AdobeStock.com)
(Source: Timon / AdobeStock.com)

Es ist nur die neuste Randnotiz in einem schmutzigen Spiel, das viele Nutzerinnen und Nutzer, die Wert auf Datenschutz und Privatsphäre legen, entgeistert mitverfolgen: Tumblr und WordPress bereiten sich gemäss einem Enthüllungsbericht vom Dienstag darauf vor, grosse Teile ihre Nutzerdaten an Midjourney und OpenAI zu verkaufen.

Dem US-Medium 404 Media sind Insider-Informationen zugespielt worden, wonach ein entsprechender Deal der beiden KI-Entwickler mit Automattic, der Muttergesellschaft der Blogging-Plattformen, kurz vor dem Abschluss steht.

Das Vorgehen wirft Fragen auf.

Wo ist das Problem?

Eine von der Techjournalistin Samantha Cole eingesehene interne Dokumentation beschreibe "einen chaotischen und kontroversen Prozess innerhalb von Tumblr selbst", wie es in ihrem Bericht bei 404 Media heisst.

Demnach lief beim Scraping – dem automatisierten Erfassen der User-Inhalte, um sie für den Verkauf vorzubereiten – etwas gewaltig schief. Offenbar wurde auch "eine riesige Anzahl Nutzerbeiträge" fälschlicherweise miterfasst.

Der Medienbericht zitiert aus einem internen Schreiben eines zuständigen Managers, wonach eine Liste aller öffentlichen Post-Inhalte von Tumblr zwischen 2014 und 2023 zusammengestellt wurde, doch leider habe das Scraping auch Postings erfasst, die nicht enthalten sein dürften:

  • Private Beiträge auf öffentlichen Blogs.
  • Beiträge auf gelöschten oder gesperrten Blogs.
  • Unbeantwortete Fragen (normalerweise seien diese nicht öffentlich, bis sie beantwortet werden).
  • Private Antworten (diese würden nur dem Empfänger angezeigt und seien nicht öffentlich).
  • Beiträge, die nach den eigenen "modernen Massstäben" als "explizit" und damit nicht jugendfrei gelten, bzw. als NSFW, die Abkürzung für "Not Safe For Work".
  • Inhalte von Premium-Partner-Blogs, die möglicherweise Inhalte enthielten, "die nicht uns gehören".

Ein Branchenbeobachter kommentiert:

"Von Menschen erstellte Inhalte sind das neue Gold für das Training von KI-Modellen, und die User stellen schnell fest, dass ihre Daten ein begehrtes Gut sind."

Tatsächlich haben mehrere grosse Online-Plattformen in letzter Zeit ähnliche Vereinbarungen mit KI-Unternehmen getroffen, wie 404 Media in Erinnerung ruft.

Im vergangenen Jahr unterzeichnete der grosse Stock-Photo-Anbieter Shutterstock einen Sechsjahresvertrag mit OpenAI zur Bereitstellung von KI-Trainingsdaten.

Ein populärer Plattformbetreiber, der neu mit KI-Trainingsdaten Geld verdienen will, ist Reddit. Das US-Unternehmen hat eine Lizenzvereinbarung für KI-Inhalte mit Google abgeschlossen und letzte Woche im Zuge des geplanten Börsenganges öffentlich erklärt, dass es sich «in der Anfangsphase der Monetarisierung [seiner] Nutzerbasis» befinde.

Der Ärger der Betroffenen war und ist gross.

Wer weiss, vielleicht begegnen ihnen ihre eigenen Postings an anderer Stelle, in anderer Form wieder: als scheinbar schlaue Antwort von Chatbots wie ChatGPT und Gemini oder als vermeintlich kreatives Erzeugnis eines KI-Bildgenerators.

Aber muss man ohnmächtig mitansehen, wie selbsterstellte Inhalte ohne ausdrückliche Zustimmung und unter Missachtung der Privatsphäre von Dritten für das Trainieren von Künstlicher Intelligenz verwendet werden?

Der Teufel steckt im Kleingedruckten, respektive in den Allgemeinen Geschäftsbedingungen (AGB), denen die allermeisten Nutzerinnen und Nutzer gedankenlos zustimmen.

Too little, too late?

Kommt hinzu, dass nicht nur die generative KI selbst eine Blackbox ist und sich die Anbieter – ob OpenAI, Midjourney, Google oder andere Anbieter – in Intransparenz üben.

Der öffentliche Druck scheint aber zumindest in Einzelfällen zu wirken und die Verantwortlichen müssen sich erklären.

Gegenüber der Techjournalistin von 404 Media wollte Automattic zwar keine konkreten Fragen zum Deal und dem Scraping von User-Daten beantworten, wie es heisst.

Stattdessen habe Automattic eine Erklärung mit dem Titel "Protecting User Choice" (Schutz der Wahlfreiheit der User) verschickt, diese sei aber erst nach der Veröffentlichung des Enthüllungsberichts auf der Website veröffentlicht worden. Darin verspricht Automattic, dass es KI-Crawler daran hindere, die eigenen Websites zu durchforsten. Und weiter:

"Wir planen ausserdem, noch einen Schritt weiterzugehen und alle Geschäftspartner regelmässig über Personen zu informieren, die sich neu abmelden und darum bitten, dass ihre Inhalte aus vergangenen Quellen und zukünftigen [KI-]Schulungen entfernt werden."

Automattic plane, auf seinen Plattformen am (heutigen) Mittwoch eine neue Einstellung einzuführen, die es den Nutzerinnen und Nutzern ermögliche, die Weitergabe von Daten an Dritte, einschliesslich KI-Firmen, abzulehnen.

Allerdings ist die Umsetzung dieses Versprechens fraglich, wie ein weiteres internes Schreiben, das 404 Media einsehen konnte, belegen soll. Laut Bericht fragte ein besorgter Mitarbeiter in einem internen Kommunikationskanal:

"Haben wir die Zusicherung, dass unsere bestehenden Datenpartner über eine solche Änderung benachrichtigt werden und ihre Daten entfernen, wenn ein Nutzer sich gegen die Weitergabe seiner Daten an Dritte entscheidet?"

Der Leiter der KI-Abteilung von Automattic antwortete, er gehe aufgrund der bisherigen Gespräche mit den Partnern davon aus, dass diese sich daran halten werden.

Die Frage von 404 Media, ob das US-Unternehmen garantieren könne, dass die Daten von Personen, die sich abmelden, rückwirkend gelöscht werden, blieb unbeantwortet.

Was ist mit unabhängigen WordPress-Blogs?

Die Techjournalistin Cole weist auf eine weitere Unklarheit hin: In der Erklärung, die Automattic nach der Veröffentlichung ihres Artikels verschickte, sei ausdrücklich von WordPress.com die Rede. Dies umfasse die Blogs, die Automattic auch selbst hoste, also auf eigenen Servern anbiete.

Daneben existiert aber ein separates Open-Source-WordPress (WordPress.org), das von Privatpersonen und Unternehmen für selbst gehostete Websites verwendet wird.

Unklar bleibe, ob diese selbst gehosteten WordPress-Blogs, die beliebte Automattic-Plugins verwendeten, um die Blogs mit der Automattic-Infrastruktur zu verbinden, von den KI-Scraping-Massnahmen betroffen seien.

Wie werden Nutzerdaten für die KI-Entwicklung verwendet?

Unternehmen wie Midjourney und OpenAI benötigen riesige Datensätze, um ihre KI-Systeme zu trainieren. Programme wie ChatGPT basieren auf sogenannten grossen Sprachmodellen (englische Abkürzung: LLM). Und diese Sprachmodelle müssen während der Trainingsphase mit möglichst vielen Informationen gefüttert werden, um Muster abzuleiten und daraus dann passende Inhalte generieren zu können.

Beispielsweise könnten WordPress-Blogbeiträge, die mit Lieblingsrezepten gefüllt sind, den grossen Sprachmodellen zugeführt werden, um ihnen beizubringen, wie man über Essen "spricht". Zur Erinnerung: Generative KI hat nichts mit echter Intelligenz zu tun. Es handelt sich um eine Software, die aufgrund von Wahrscheinlichkeiten Inhalte generiert, diese aber in keiner Weise selbst verstehen kann.

Dieser Beitrag ist zuerst bei "Watson" erschienen. 

Übrigens: Um KI-Trainingsdaten geht es auch im Rechtsstreit zwischen OpenAI und der "New York Times". Das Unternehmen beschuldigt die Zeitung, ChatGPT "gehackt" zu haben - hier erfahren Sie mehr dazu.

Webcode
EKTkEvJv