Tech-Konzerne trainieren KI-Modelle mit Youtube-Untertiteln

News

In einem öffentlich zugänglichen Datensatz zum Training von KI-Modellen sind Untertitel von über 170'000 Youtube-Videos aufgetaucht. Weder die Macherinnen und Macher der Videos noch Youtube stimmten der Nutzung zu. Unter anderem verwendeten Apple, Nvidia und Anthropic die Trainingsdaten.

(Source: Immo Wegmann / unsplash.com)

Eine Organisation namens EleutherAI hat offenbar in grossem Stil die Untertitel von Youtube-Videos abgegriffen und in einen Datensatz zum Trainieren von KI-Modellen gepackt. Konkret beinhaltet der Datensatz die Untertitel von 173'536 Videos, wie "Proof News" meldet. Darunter sind Videos von Bildungsprogrammen, News-Kanälen wie der "BBC" oder dem "Wallstreet Journal", aber auch pseudowissenschaftliche Inhalte, etwa zur Flat-Earth-Theorie.

Die Organisation EleutherAI, die ein quelloffenes Gegenstück zum KI-Giganten OpenAI entwickeln möchte, habe den Datensatz zunächst zum Training von Open-Source-KI genutzt, heisst es bei "Proof News". Allerdings griffen in der Zwischenzeit auch andere Firmen darauf zu, darunter bekannte Firmen wie Apple, Nvidia und Anthropic.

Youtube selber erlaube es nicht, Inhalte massenhaft abzugreifen, merkt "Proof News" an. Und offenbar stimmten auch die Macherinnen und Macher der verwendeten Youtube-Filme der Verarbeitung durch EleutherAI nicht zu. "Dies ist mein Lebensunterhalt, und ich investiere Zeit, Ressourcen, Geld und Personal in die Erstellung dieser Inhalte", erklärt etwa Youtuber David Pakman, dessen Kanal rund 2 Millionen Follower zählt. Er plädiert dafür, dass ihn Tech-firmen, die ihre KI mit seinen Inhalten trainierten und nun damit Geld verdienten, für seine Leistungen kompensieren.

Unlängst hat die Verlagsgruppe um den "Spiegel" eine Partnerschaft mit der konversationellen Suchmaschine Perplexity angekündigt. Der Spiegel will damit die Möglichkeiten der künstlichen Intelligenz im Journalismus erforschen und nutzen. Mehr dazu lesen Sie hier.

Artikel teilen: