OpenAI lanciert präziseres Bildgenerierungsmodell

News

OpenAI verpasst seinem Bildgenerierungsmodell ein Upgrade. ChatGPT Images 2.0 soll schneller, kreativer und bei Details präziser sein. Doch der KI-Entwickler sieht für sein Modell noch mehr Raum nach oben.

(Source: Netzmedien / ChatGPT Images 2.0)

Das Bildgenerierungsmodell ChatGPT Images bekommt ein Update. Wie Entwickler OpenAI mitteilt, soll das neue Images 2.0 im Vergleich zu früheren Versionen komplexen Anweisungen deutlich besser folgen, Texte präziser darstellen und Objekte korrekter positionieren können.

Bisher erstellte das Modell Darstellungstexte in Englisch und Sprachen mit lateinischer Schrift konsistenter als beispielsweise solche in Japanisch, Koreanisch, Chinesisch und Hindi. Nun sei aber eine bessere sprachübergreifende Generierung möglich, wie OpenAI in seinem Blog schreibt.

Auch bei den Stilen hat sich etwas getan: OpenAI verbesserte das Generieren von Bildern in Filmstil, Pixelkunst, Manga, Comics und Fotorealismus. User sind inzwischen in der Lage, Selfies in Porträts umzuwandeln, Hintergründe zu entfernen und Fotos grundlegend zu überarbeiten. Zudem sind laut Mitteilung nun eine grössere Bandbreite an Seitenverhältnissen (3:1 bis 1:3) für eine einfachere Erstellung von Bannern, Präsentationen, Postern und Mobile-Formaten verfügbar.

Damit Entwicklerinnen und Entwickler Bildgenerierung und -bearbeitung direkt in ihre Produkte und Workflows integrieren können, ist das zugrunde liegende Modell "gpt-image-2" über die API abrufbar.

Sobald das Modell "Thinking" ausgewählt ist, braucht ChatGPT mehr Zeit für die Bildgenerierung, wie OpenAI weiter schreibt. Dafür sind die Resultate durch zusätzliche Internetrecherche ausführlicher und aktiver durchdacht. Ausserdem können User in diesem Modus mehrere unterschiedliche Bilder gleichzeitig erstellen lassen. Pro Anfrage seien bis zu acht kohärente Ergebnisse möglich, was ideal für Poster-Sets, Storyboards, Comics oder Multi-Format-Kampagnen sein soll.

Unter dem Titel "Limitations" hält OpenAI zudem im Blog fest: "ChatGPT Images 2.0 ist ein grosser Fortschritt, aber es ist nicht perfekt". Das Modell habe etwa Schwierigkeiten mit Aufgaben, die ein vollständiges und kohärentes Modell der physischen Welt, exakten Beschriftungen von Diagrammen und Details erfordern, die auf verdeckten, schrägen oder umgedrehten Oberflächen korrekt dargestellt werden müssen. Auch sehr dichte oder sich wiederholende visuelle Details würden die Grenzen des Modells auf die Probe stellen. "Wir betrachten diese Einschränkungen als wichtige Herausforderungen für unsere zukünftige Arbeit."

ChatGPT Images 2.0 steht künftig allen ChatGPT- und Codex-Usern zur Verfügung, wie es in der Mitteilung weiter heisst. Die erweiterten Funktionen mit "Thinking" seien für Plus-, Pro-, Business- und Enterprise-User zugänglich.

Übrigens: OpenAI hat im März GPT-5.3 Instant angekündigt. Damit soll ChatGPT flüssiger Gespräche führen und hilfreicher antworten können. Lesen Sie hier mehr dazu.

Artikel teilen: