Automatische Spracherkennung macht grosse Fortschritte
Können Menschen oder Maschinen Sprache besser erkennen? In lauten Umgebungen wie Kneipenlärm erzielen moderne Spracherkennungssysteme (ASR) eine beeindruckende Präzision – und übertreffen in einigen Szenarien sogar den Menschen.
In einer aktuellen Studie untersuchte die UZH-Computerlinguistin Eleanor Chodroff gemeinsam mit Chloe Patman von der Cambridge University, wie gut moderne ASR-Systeme mit herausfordernden Hörbedingungen umgehen. Getestet wurden die Systeme "wav2vec 2.0" von Meta und "Whisper large-v3" von OpenAI. Der Massstab: die Leistung britischer Muttersprachlerinnen und Muttersprachler.
Die Tests fanden unter extremen Bedingungen statt – von sprachähnlichem Rauschen bis hin zu realistischem Kneipenlärm, sowohl mit als auch ohne Baumwoll-Gesichtsmaske. Das Ergebnis: Menschen zeigten insgesamt die besten Leistungen, doch das OpenAI-System "Whisper large-v3" übertraf sie in nahezu allen Szenarien. Nur im Kneipenlärm war es auf Augenhöhe mit dem menschlichen Gehör.
Besonders auffällig war die Fähigkeit von "Whisper large-v3", Sprache auch ohne kontextuelle Unterstützung korrekt zu verarbeiten.
Der entscheidende Unterschied
Die enorme Leistung von "Whisper" basiert auf gigantischen Trainingsdatenmengen. Während "wav2vec 2.0" von Meta mit 960 Stunden Sprachdaten trainiert wurde, griff OpenAI auf über 75 Jahre Sprachdaten für sein Standardsystem zurück. Das leistungsstärkste Modell nutzte sogar mehr als 500 Jahre an Sprachdaten. Im Vergleich dazu entwickelt der Mensch ähnliche Fähigkeiten in wenigen Jahren – ein bemerkenswerter Aspekt, wie Studienleiterin Eleanor Chodroff betont. "Ausserdem bleibt die automatische Spracherkennung in fast allen anderen Sprachen weiterhin eine grosse Herausforderung."
Unterschiedliche Fehlerquellen
Die Studie zeigte auch, dass Menschen und Maschinen auf unterschiedliche Weise scheitern. Menschen erstellen fast immer grammatikalisch korrekte Sätze, schreiben aber häufig Satzfragmente. "wav2vec 2.0" generierte bei schwierigen Bedingungen dagegen oft unverständlichen Kauderwelsch. "Whisper" konnte grammatikalisch korrekte Sätze produzieren, füllte aber inhaltliche Lücken mit völlig falschen Informationen.
Dieser Artikel ist zuerst bei "Markt-kom.com" erschienen.
Bundesrat treibt KI-Strategie für Bundesverwaltung weiter voran
Neuartige künstliche Muskeln bewegen sich mit Schall
Fünf Typen von Projektleitern, die IT-Projekte scheitern lassen
Bundesrat bestimmt Fokusthemen der Strategie Digitale Schweiz 2026
Microsoft sieht sich Milliardenklage wegen zu hohen Cloud-Lizenzen gegenüber
Stadt Luzern führt digitales Portal für Baugesuche ein
Wenn der Tag schon anders anfängt als gedacht
Wie Cyberkriminelle Opfer mit täuschend echten Animationen in die Falle locken
Noser Engineering erweitert Geschäftsleitung um zwei Köpfe