Vall-E

Microsoft-KI kann Stimmen imitieren – nach drei Sekunden

Uhr
von Joël Orizet und yzu

Ein Forschungsteam von Microsoft hat ein neues Text-to-Speech-Modell angekündigt. Es nennt sich Vall-E und soll in der Lage sein, die Stimmen einzelner Personen verblüffend echt nachzuahmen. Eine Audioaufnahme von nur drei Sekunden soll dazu genügen.

(Source: palesa / Unsplash.com)
(Source: palesa / Unsplash.com)

Eine neue KI von Microsoft namens Vall-E soll menschliche Stimmen nahezu perfekt nachahmen können. Sogar stimmlich zum Ausdruck gebrachte Emotionen wie Wut, Ekel und Vergnügtheit sowie akustische Umgebungen kann die KI imitieren, wie ein Forschungsteam von Microsoft in einer Github-Demo schreibt. Erstaunlich ist vor allem, wie schnell das funktionieren soll: Ein Audiosample von nur drei Sekunden reicht demnach aus, um eine Stimm-Imitation zu erstellen, die dann beliebige Sätze von sich geben kann. 

Die Forschenden bezeichnen die KI als "Neural Codec Language"-Modell. Es erzeuge hochwertige, personalisierte Sprachsynthesen und übertreffe klassische Text-to-Speech-Modelle deutlich, was die Natürlichkeit der Sprache und die Ähnlichkeit mit realen Stimmen betreffe. In der Pre-Trainingsphase hätten die Forschenden das Modell mit 60'000 Stunden Audiomaterial in englischer Sprache gefüttert – Hunderte Male mehr als bei bestehenden Systemen, heisst es im Abstract des Forschungspapers, in dem die Autorinnen und Autoren erste Ergebnisse präsentieren. 

Das Neural-Codec-Language-Modell namens Vall-E soll bisherigen Text-to-Speech-Modellen überlegen sein. (Source: Microsoft)
Das Neural-Codec-Language-Modell namens Vall-E soll bisherigen Text-to-Speech-Modellen überlegen sein. (Source: Microsoft)

 

Ob und wann dieses Modell allgemein nutzbar sein wird, ist unklar. Man sei sich bewusst, dass Vall-E ein Potenzial zum Missbrauch habe, schreiben die Forschenden in einem "Ethik-Statement" am Schluss der Github-Demo. Möglich seien etwa das Austricksen von Stimmerkennungs-Systemen oder das Nachahmen bestimmter Personen zu kriminellen Zwecken. "Wir haben die Experimente unter der Annahme durchgeführt, dass der Benutzer zustimmt, der Zielsprecher in der Sprachsynthese zu sein", schreiben die Forschenden. Künftige Anwendung des Modells sollten ein Protokoll beinhalten, das sicherstellt, dass durch die KI generierte Stimmen als solche deklariert sind. 

Auf dem Gebiet des maschinellen Lernens hat sich in jüngster Zeit vieles getan – insbesondere der Prototyp des Dialogsystems ChatGPT macht zurzeit von sich reden. Wofür sich der Chatbot von OpenAI gewappnet sieht, wie er die Welt verändern könnte und ob er sich selbst als potenzielle Gefahr für die Gesellschaft wahrnimmt, verrät ChatGPT im "Interview"
 

Webcode
35kTu2qB