OpenAI peppt seine Sprachagenten auf
OpenAI präsentiert neue Speech-to-Text- und Text-to-Speech-Modelle in der API. Diese sollen die Zuverlässigkeit von Transkription erhöhen und an verschiedene Szenarien anpassbar sein.
OpenAIs Sprachagenten bekommen ein Update. Die neuen Speech-to-Text- und Text-to-Speech-Modelle sollen nicht nur anpassbarer sein, sondern auch bisherige Modelle in anspruchsvollen Szenarien übertreffen, wie das Unternehmen mitteilt.
Speech-to-Text
Die beiden jüngsten Speech-to-Text-Modelle GPT-4o-transcribe und GPT-4o-mini-transcribe erfassen gemäss OpenAI Nuancen der Sprache besser als zuvor und erhöhen so die Zuverlässigkeit von Transkriptionen. Die Word Error Rate, und damit die Quote der Fehleinschätzungen, sei gegenüber Whisper-Modellen geringer, was unter anderem einem intensiven Training mit hochqualitativen Audio-Datensätzen zu verdanken sei. Durch die Verbesserungen würden beide Modelle in anspruchsvollen Szenarien glänzen, beispielsweise beim Transkribieren von starken Akzenten oder in lauten Umgebungen.
Text-to-Speech
Das neue Text-to-Speech-Modell GPT-4o-mini-tts ist laut OpenAI besser steuerbar als seine Vorgänger. Zum ersten Mal könnten Entwickler nämlich nicht nur einstellen, was der Sprachagent sagt, sondern auch auf welche Art und Weise er das tut. Man könne den KI-Agenten beispielsweise dazu bringen, wie ein einfühlsamer Kundenservice-Mitarbeiter oder ein Ritter aus dem Mittelalter zu reden. Somit lasse sich das Modell besser an individuelle Situationen anpassen, vom Customer Service bis hin zum Erzählen von kreativen Geschichten.
Verfügbarkeit
Die neuen Modelle sind für alle Entwickler jeweils in der Speech-to-Text- oder Text-to-Speech-API verfügbar. Eine Integration mit dem kürzlich veröffentlichten Software Development Kit soll dabei das Entwickeln der Sprachagenten vereinfachen.
Das könnte Sie auch interessieren: OpenAIs autonomer KI-Agent namens Operator ist seit neuem auch in der Schweiz verfügbar. Was genau Operator kann, lesen Sie hier.
Falsche Banker und Polizisten machen Jagd auf Kontodaten
Bundesrat will teure IT-Alleingänge der Verwaltung stoppen
Katze meistert jedes Rätsel
Ihr Schweizer Microsoft Partner für digitale Verwaltung & Souveränität
Abraxas – für die digitale Schweiz
Souveräne Identität und sichere Applikationslandschaften im Public Sector
"Souveränität bedeutet, Abhängigkeiten gezielt und kontrolliert einzugehen"
"Digitale Souveränität entsteht nicht an einem einzelnen Punkt, sondern entlang der gesamten digitalen Kette"
Finanzbranche übt Reaktion auf systemischen Cyberangriff