Mistral veröffentlicht Sprachverarbeitungsmodelle namens Voxtral

News

Der französische KI-Anbieter Mistral AI hat zwei neue Sprachverarbeitungsmodelle namens Voxtral vorgestellt. Die Modelle sind als Open Source unter Apache-2.0-Lizenz verfügbar und sollen eine kostengünstige Alternative zu proprietären Systemen bieten.

Mistral AI hat zwei neue Sprachverarbeitungsmodelle namens Voxtral vorgestellt. (Source: Mistral AI)

Mistral AI erweitert sein Portfolio um spezialisierte Sprachverarbeitungsmodelle. Wie der französische KI-Anbieter mitteilt, eignen sich die beiden Voxtral-Varianten für unterschiedliche Einsatzszenarien: ein 24-Milliarden-Parameter-Modell für produktive Anwendungen und eine kompakte 3-Milliarden-Parameter-Version für lokale Implementierungen und Edge-Deployments.

Die Modelle sind demnach über die Mistral-API und auch als Download verfügbar. Ausserdem bietet das Unternehmen einen optimierten Transkriptions-Endpunkt an, der nach eigenen Angaben besonders kosteneffizient arbeitet.

Mit den Voxtral-Modellen will Mistral eine Lücke zwischen Open-Source-Systemen mit hohen Fehlerquoten und proprietären APIs mit besserer Leistung, aber höheren Kosten, schliessen. Die neuen Modelle sollen vergleichbare Genauigkeit bei weniger als der Hälfte der Kosten konkurrierender APIs bieten. So positioniert Mistral AI seine neuen Sprachverarbeitungsmodelle im direkten Wettbewerb mit etablierten Anbietern wie Whisper von OpenAI.

Die technischen Spezifikationen von Voxtral umfassen einen Kontext von 32'000 Token, was die Verarbeitung von Audiodateien bis zu 30 Minuten für Transkriptionen oder 40 Minuten für Verständnisaufgaben ermöglicht. Die Modelle unterstützen laut Mitteilung die automatische Spracherkennung in mehreren Sprachen - darunter Englisch, Spanisch, Französisch, Portugiesisch, Hindi, Deutsch, Niederländisch und Italienisch.

Zu den integrierten Funktionen gehören laut Mistral Frage-Antwort-Systeme und Zusammenfassungsfunktionen direkt aus Audioinhalten. Die Modelle könnten ausserdem Backend-Funktionen, Workflows oder API-Aufrufe basierend auf gesprochenen Benutzerabsichten auslösen, ohne dass zusätzliche Parsing-Schritte erforderlich sind.

Die Veröffentlichung unter Apache-2.0-Lizenz erlaubt Unternehmen die freie Nutzung, Modifikation und kommerzielle Verwendung der Modelle.

Kürzlich hat Mistral sein erstes Reasoning-Modell lanciert. Lesen Sie hier mehr darüber.

Artikel teilen: