OpenAI misst die Halluzinationen seiner LLMs
Um die Genauigkeit seiner Sprachmodelle besser beurteilen zu können, hat ChatGPT-Entwickler OpenAI einen Benchmark für faktenbasierte Antworten namens SimpleQA erstellt. Dieser zeigt, dass GPT-Modelle noch immer ihre Grenzen haben.
Large Language Models (LLMs) können falsche Antworten liefern - man spricht in diesem Zusammenhang auch von "Halluzinationen". OpenAI, das Unternehmen hinter ChatGPT, möchte dies korrigieren und die Zuverlässigkeit seiner Modelle verbessern. Um dies zu erreichen, führte das Unternehmen SimpleQA ein, einen Open-Source-Benchmark zur Messung der Genauigkeit der Antworten von grossen Sprachmodellen, wie das Unternehmen mitteilt. Die Entwicklung des neuen Tools zeige auch die derzeitigen Grenzen von LLMs auf.
OpenAI entwickelte das Tool, um die Fähigkeiten seiner LLMs zu bewerten - insbesondere die Fähigkeit, kurze, zielgerichtete und faktenbasierte Antworten zu liefern. Die Basis für das Tool bilden 4326 Fragen mit nachprüfbaren Antworten. Durch die Beschränkung des Benchmarks auf klar definierte Fragen ermöglicht SimpleQA laut OpenAI eine präzisere Messung der Faktentreue.
Man habe bewusst nur Fragen ausgewählt, auf die es jeweils nur eine richtige Antwort gebe. Zudem wählten die Forschenden nur Fragen aus, die ein OpenAI-LLM zuvor falsch beantwortet hatte.
Maximal 40 Prozent richtige Antworten
Die Ergebnisse zeigen, dass GPT-4o, die aktuell gängige Version von GPT-4, die Auswahl der Fragen zu 40 Prozent richtig beantwortet. Das Modell GPT-4 o1-Preview schneidet hingegen etwas besser ab.
OpenAI sieht in SimpleQA einen Beitrag zur Forschung im Bereich zuverlässige KI. "Die Frage nach dem Zusammenhang zwischen der Fähigkeit, kurze sachliche Antworten zu geben, und der Fähigkeit, ausführliche Antworten zu verfassen, bleibt offen", teilt OpenAI mit.
OpenAI hat kürzlich übrigens die Domain chat.com für über 15 Millionen US-Dollar erworben. Wer die URL nun eingibt, landet bei ChatGPT. Mehr dazu lesen Sie hier.
Update: Stände- und Nationalrat einigen sich (fast) in Sachen E-Collecting
Swico fordert digitalen Entrümpelungstag für die Schweiz
Ihr Schweizer Microsoft Partner für digitale Verwaltung & Souveränität
Media Markt erhält neuen alten Schweiz-Chef
Update: Bechtles Index für digitale Souveränität kommt auf den Markt
3 von 4 Sicherheitsexpertinnen halten Cybersecurity für eine frauenfreundliche Karriere
Update: Basel-Stadt pausiert E-Voting – drei Kantone machen weiter
Von offenen Quellen und heiklen Daten
Probelauf für die E-ID