Wenn der KI die Luft ausgeht
Gemäss einer Untersuchung von Forschern der ETH Lausanne verwendet ein Drittel der Mitarbeitenden der Crowdsourcing-Plattform Mechanical Turk, ChatGPT, um ihre Aufgaben zu erledigen. Die Forscher befürchten, dass es dadurch immer schwieriger wird, die menschlichen Daten zu erhalten, die sie für das Training ihrer Algorithmen benötigen.
Es ist kein Geheimnis, dass die heutigen Algorithmen und Sprachmodelle auf menschliche Daten und Inhalte angewiesen sind, das diese für das KI-Training (noch) unerlässlich sind. Um an diese Trainingsdaten zu gelangen, nutzen Organisationen und Forscher verschiedene Wege. Manchmal sammeln sie kostenlos Inhalte, die im Internet und in sozialen Netzwerken veröffentlicht werden. Manchmal arbeiten sie mit Unternehmen in Billiglohnländern zusammen, so etwa OpenAI, das für zwei US-Dollar in der Stunde kenianische Arbeiter einsetzt, um anstössige Bilder zu kennzeichnen. Manchmal setzt OpenAI auch Crowdworker ein, die über entsprechende Plattformen nur wenige Cent pro Mikroaufgabe verdienen.
Wenn menschliche Daten der Sauerstoff der Algorithmen sind, dann sind all diese "Datenarbeiter" sozusagen ihre künstlichen (bzw. eben "menschlichen") Atemgeräte. So drohen im Fall der generativen KI die grossen Sprachmodelle quasi zu ersticken, wenn sie, als Opfer ihrer eigenen Popularität, an ihren eigenen, aus dem Web zusammengeklaubten Schöpfungen üben und nicht mehr genug neue menschliche Inhalte zum "Atmen" haben.
Der mechanische Schachtürke wird wieder zum mechanischen Schachtürken
Abgesehen von der Gefahr der Verbreitung von KI-Inhalten im Web drohen auch Crowdsourcing-Plattformen, die Datenentwickler nicht mehr mit menschlichen Daten zu versorgen. Diese Befürchtung äussern die Forscher der EPFL in einem kürzlich erschienenen Artikel. Auch hier sind die grossen Sprachmodelle der Grund.
Aufgrund ihrer Leistungsfähigkeit bei einer Vielzahl von Aufgaben könnten ChatGPT-ähnliche Modelle von Crowdworkern verwendet werden, die über Crowdsourcing-Plattformen wie Amazons Mechanical Turk Service mobilisiert werden. Anstatt die Aufgaben, für die sie bezahlt werden, "menschlich" zu erledigen (Daten etikettieren, Fragen beantworten usw.) , könnten sie die KI-Tools nutzen, um Zeit zu sparen. Ist es nicht das Versprechen der generativen KI, die Produktivität zu steigern?
Der Name "Mechanical Turk", den Amazon seiner Plattform gegeben hat, stammt vom sogenannten Schachtürken, einem Schach spielenden Automaten aus dem 18. Jahrhundert. Der Erbauer dieses "Automaten" liess bei den Zuschauern den Eindruck entstehen, dass dieses Gerät selbständig Schach spielte. Tatsächlich war darin aber ein menschlicher Schachspieler versteckt, der es bediente.
Abbildung eines Kupferstichs von Karl Gottlieb von Windisch, der den Schachtürken darstellt (Quelle: Wikimedia)
Bei der Nutzung des gleichnamigen Amazon-Dienstes kann der Eindruck entstehen, dass eine Maschine die Arbeit erledigt, obwohl es in Wirklichkeit Menschen sind, welche die Arbeit erledigen. In diesem Fall befürchten die Forscher, dass der Mensch, der im Verborgenen arbeitet, selbst eine Maschine benutzt. Mit anderen Worten, dass der mechanische Türke letztendlich mechanisch ist - eine "künstliche künstliche Intelligenz", wie die Autoren es ausdrücken.
Ein Drittel der Crowdworker setzt wohl KI ein
Um festzustellen, ob Mechanical Turk Worker bereits ChatGPT einsetzen, haben die EPFL-Forscher ihnen die Aufgabe gestellt, Abstracts (einleitende Zusammenfassungen) von medizinischen Forschungsartikeln zu erstellen. Die Forscher schätzten, dass es durchschnittlich 4 Minuten dauert, einen Abstract zu schreiben (?!).
Parallel dazu trainierten die Forscher ein Modell, um zwischen von Menschen bzw. von ChatGPT verfassten Zusammenfassungen zu unterscheiden. Anschliessend verwendeten sie dieses Modell, um festzustellen, wie viele der von Crowdworkern erstellten Zusammenfassungen vermutlich mit oder durch ChatGPT erstellt worden waren.
Um noch genauer zu sein, haben die Forscher auch die Tastatureingaben der Arbeitnehmer herangezogen, wobei sie davon ausgingen, dass diejenigen, die Kopieren und Einfügen verwendet haben, eher verdächtigt werden, ChatGPT benutzt zu haben. (Die Autoren des Artikels beschränken sich zwar auf das Bearbeitungsfenster und das Kopieren und Einfügen, räumen aber ein, dass die Verwendung eines Tools, das Tastatureingaben aufzeichnet, problematisch sein kann).
Nach ihrer Analyse und unter Berücksichtigung der Fälle, in denen die Wahrscheinlichkeit mindestens 98 Prozent betrug, gehen die Forscher davon aus, dass ein Drittel der mobilisierten Arbeitnehmer ChatGPT genutzt hat. Von den 46 erstellten Zusammenfassungen machten 41 Gebrauch von Copy & Paste, wobei 26 dem Menschen und 15 ChatGPT zugeschrieben wurden.
Für die Forscher zeigen diese Ergebnisse, dass ChatGPT von den Mechanical-Turk-Arbeitern bereits in grossem Umfang eingesetzt wird, was "ernsthafte Bedenken hinsichtlich der fortschreitenden Verwässerung des menschlichen Faktors in Textdaten aufwirft". Sie fügen hinzu, dass mit der zunehmenden Einführung grosser Sprachmodelle die Erfassung menschlicher Daten immer schwieriger werden wird.
(Dieser Beitrag basiert auf der Veröffentlichung von: Veniamin Veselovsky, Manoel Horta Ribeiro, Robert West: "Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks")
Auch interessant: Lesen Sie im Interview mit Philipp Schmid des Schweizer Forschungs- und Entwicklungszentrums CSEM, was ChatGPT und Co. der Schweizer Industrie bringen.