KI-Videos ohne Zeitlimit

EPFL-Forschende sprengen die Zeitgrenze für KI-generierte Videos

Uhr
von Alexia Muanza und Übersetzung: Joël Orizet, nki

Forschende der EPFL haben eine künstliche Intelligenz entwickelt, die Videos in beliebiger Länge und ohne Qualitätsverlust erzeugen kann. Damit lösen sie ein grosses Problem aktueller Videogeneratoren.

(Source: metamorworks / stock.adobe.com)
(Source: metamorworks / stock.adobe.com)

Forschende des EPFL-Labors für intelligente Bildverarbeitung für den Verkehr (VITA) haben eine künstliche Intelligenz namens SVI (Stable Video Infinity) entwickelt. Sie kann Videos über sehr lange Zeiträume generieren, ohne dass die Qualität dabei schrittweise abnimmt, wie die Hochschule mitteilt.

Dieser Fortschritt löst das Phänomen des sogenannten Drifts - ein bekanntes Problem von Modellen zur Videogenerierung. Dieser Drift führt zu einer Anhäufung von Fehlern von einem Bild zum nächsten. Bisher konnten KI-Modelle nur für weniger als 30 Sekunden stimmige Sequenzen erzeugen, bevor unscharfe Konturen, instabile Farben oder ein Verlust der visuellen Logik auftraten.

Laut Alexandre Alahi, Assistenzprofessor und Leiter des VITA Lab der EPFL, liegt das Problem darin, dass die aktuellen Modelle mit perfekten Daten trainiert werden. "Wenn sie aber in der Praxis zum Einsatz kommen, müssen sie ihre eigenen, fehlerhaften Zwischenergebnisse als neue Eingabe verarbeiten. Dies führt zum schrittweisen Zusammenbruch des Realismus", erklärt Alahi.

Professor Alexandre Alahi, ein Mann mit Bart und dunklem Haar, lächelt in die Kamera. Er trägt Sakko und Jeans. Hinter ihm zeigt eine Leinwand zwei blau-weisse Strichfiguren, die eine Bewegungsanalyse darstellen.

Alexandre Alahi, Assistenzprofessor und Leiter des VITA Lab der EPFL. (Source: zVg)

Fehler als Trainingsmethode

Um diese Hürde zu überwinden, entwickelten die Forschenden eine Methode, die sie "Nachtraining durch Fehler-Recycling" nennen. Dabei generiert das Modell zunächst Videos. Die Forschenden messen die Abweichungen zum erwarteten Ergebnis, speichern diese Fehler und speisen sie in den nächsten Trainingsphasen gezielt wieder in das System ein. "Das ist ein bisschen so, als würde man einen Piloten bei turbulentem Wetter trainieren statt bei strahlend blauem Himmel", merkt Alahi an. So zwingen sie die KI, unter realen Bedingungen zu arbeiten und aus fehlerhaften Daten wieder auf Kurs zu kommen.

Dieses Vorgehen ermöglicht es dem Modell, die Korrektur von fehlerhaften Bildern zu erlernen und eine stabile visuelle Kontinuität aufrechtzuerhalten, ohne dafür riesige Datenmengen oder hohe Rechenleistungen zu benötigen. Dank dieses Ansatzes behält SVI eine nahezu konstante Qualität über Videos von mehreren Minuten oder länger bei.

Die als Open Source verfügbare Technologie stösst bereits auf grosses Interesse. "Unsere Arbeit wurde von einem der grössten Youtuber in der KI-Community vorgestellt und erzielte innerhalb weniger Wochen über 150'000 Aufrufe", sagt Wuyang Li, Postdoktorand am Labor. "Zudem hat unser Open-Source-Repository auf der Code-Hosting-Plattform Github über 1900 Sterne erhalten, was die Resonanz in der Community zeigt."

Selbstkorrektur von innen heraus

In Weiterführung dieser Arbeit entwickelte das Team zudem eine Methode namens "LayerSync". Diese nutzt nicht nur die sichtbaren Fehler, sondern auch die internen Repräsentationen des Modells. 

"Einige Teile des Modells verstehen die Bedeutung hinter den Bildern besser", erklärt Alahi. "'LayerSync' ermöglicht es diesen 'Experten'-Teilen, die anderen während des Trainings anzuleiten - als würde sich das Modell von innen heraus selbst korrigieren." Dieser Ansatz verbessert die Qualität von multimodalen Inhalten wie Videos, Bildern und Tönen, ohne dass zusätzliche Daten oder externe Modelle nötig sind.

Letztlich sollen die neuen Methoden den Forschenden des VITA Lab helfen, sicherere und effektivere autonome Systeme zu entwickeln, die nahtlos mit Menschen interagieren können.
 

Im September 2025 veröffentlichten übrigens die EPFL, die ETH Zürich und das Schweizer Supercomputing-Zentrum CSCS das erste umfangreiche, offene und mehrsprachige Sprachmodell aus der Schweiz - mehr über Apertus erfahren Sie hier

Webcode
PLPXWYZF