Sprachfunktion des Chatbots

Update: ChatGPT spricht jetzt gratis

Uhr

Ein neues Update soll es ChatGPT ermöglichen, Spracheingaben zu erkennen und die Antworten selbst laut auszusprechen. Auch Bilder soll der Chatbot von OpenAI bald interpretieren können. Zuerst bekamen Plus- und Enterprise-Kunden Zugang zu den Features, nun ist zumindest die Sprachfunktion für alle Nutzerinnen und Nutzer verfügbar.

(Source: PhonlamaiPhoto / iStock.com)
(Source: PhonlamaiPhoto / iStock.com)

Update vom 23.11.2023: Die Sprachfunktion von ChatGPT steht nun allen Nutzerinnen und Nutzern gratis zur Verfügung. Zuvor konnten nur zahlende Abonnentinnen und Abonnenten die auf einem Text-to-Speech-Modell basierende Funktion verwenden. OpenAI gab die Änderung auf X (ehemals Twitter), mit einem Video bekannt, in dem jemand den Chatbot fragt, wie viele Pizzen man für das 778 köpfige Team bestellen soll. Die Antwort von ChatGPT ist übrigens 195 Pizzen.

Originalmeldung vom 26.09.2023:

ChatGPT lernt sehen, hören und sprechen

OpenAI hat ein grosses Update für ChatGPT angekündigt. Der Chatbot soll bald in der Lage sein, Spracheingaben zu erkennen und die Antworten seinerseits laut auszusprechen, ähnlich einem Sprachassistenten wie Apples Siri oder Amazons Alexa.

ChatGPT erzählt eine Gute-Nacht-Geschichte

Dahinter stehe ein Text-to-Speech-Modell, das anhand von Text und einigen Sekunden an Sprachbeispielen eine menschenähnliche Stimme erzeugen könne, teilt OpenAI mit. Zudem komme das hauseigene Open-Source-Spracherkennungssystem Whisper zum Einsatz, um gesprochene Worte der User in Text zu verwandeln.

Direkte Gespräche soll es vorerst nur auf mobilen Geräten geben. Auf dem Desktop spuckt ChatGPT die Antworten auf Befehl aus, Spracherkennung gibt es noch keine.

In der Ankündigung bietet OpenAI einige Hörbeispiele. User können sich eine Geschichte, ein Rezept, ein Gedicht, eine Erklärung oder eine Rede vorlesen lassen und dabei aus fünf verschiedenen Stimmtypen wählen. OpenAI habe dafür mit professionellen Synchronsprechern zusammengearbeitet. 

Das Unternehmen arbeite in diesem Bereich auch mit anderen Personen zusammen. So nutze Spotify die Technologie von OpenAI für den Pilotversuch ihrer Features "Voice Translation". Dieses soll es Podcasterinnen und Podcastern ermöglichen, ihre Inhalte in ihrer eigenen Stimme in mehrere Sprachen zu übersetzen.

Bildanalyse

Der Chatbot erhält ausserdem neue Funktionen im Bereich der Bilderkennung. "Finden Sie heraus, warum Ihr Grill nicht anspringt, durchsuchen Sie den Inhalt Ihres Kühlschranks, um eine Mahlzeit zu planen, oder analysieren Sie eine komplexe Grafik für arbeitsbezogene Daten", schreibt der Hersteller. 

Über den Foto-Button können User neue Bilder aufnehmen oder bestehende auswählen. Dazu braucht es noch eine Frage in Textform als Input. ChatGPT beantwortet die Frage anhand der Informationen, die es dem Bild entnimmt. Um einzelne Bereiche eines Bildes hervorzuheben, gibt es in der Mobile App ein Zeichentool, wie es weiter heisst.

Roll-out

Kunden, die für ChatGPT Plus oder Enterprise zahlen, sollen in den nächsten zwei Wochen Zugang zu den neuen Features bekommen. Anschliessend will OpenAI das Update nach und nach für seine übrigen User ausrollen.

Übrigens: Ein Schweizer Start-up will OpenAI die Stirn bieten und hat sein eigenes Sprachmodell vorgestellt - SwissGPT. Mitgründer Pascal Kaufmann spricht im Interview über die Hintergründe. 

Webcode
FocPriDH