Sima 2

Google Deepmind enthüllt KI-Agenten für 3-D-Umgebungen

Uhr
von Alexia Muanza und Übersetzung: Seraina Huber, jor

Google Deepmind schickt mit Sima 2 einen neuen KI-Agenten ins Rennen, der in virtuellen 3-D-Welten selbstständig agieren und lernen kann. Angetrieben von einem Gemini-Modell, vereint die KI logisches Denken mit der Fähigkeit, Aktionen auszuführen, Dialoge zu führen und sich selbst zu verbessern.

Der KI-Agent Sima 2 analysiert die Spielszene und beschreibt sie in einem Dialogfenster. (Source: Google Deepmind)
Der KI-Agent Sima 2 analysiert die Spielszene und beschreibt sie in einem Dialogfenster. (Source: Google Deepmind)

Google Deepmind präsentiert mit Sima 2 den Nachfolger seines KI-Agenten, den der Konzern im vergangenen Jahr vorgestellt hatte. Das Vorgängermodell konnte laut dem Unternehmen 600 Anweisungen in kommerziellen Spielen befolgen - durch das Beobachten des Bildschirms und die Nutzung einer virtuellen Tastatur und Maus. Das Nachfolgemodell beschreibt Google in einer Mitteilung als "einen bedeutenden Schritt" seiner Forschung.

Es sei jetzt auch in der Lage, "über seine Ziele nachzudenken, mit Usern zu sprechen und sich im Laufe der Zeit zu verbessern". Deepmind erklärt, dass der Agent dank dieser Fähigkeiten längere und komplexere Aufgaben in einer Vielzahl von Umgebungen bewältigen könne.

Ausserdem könne Sima 2 deutlich besser verallgemeinern. So meistere der Agent Aufgaben in Spielen, für die er nie trainiert wurde, wie Aska oder Minedojo. Die Integration eines Gemini-Modells ermögliche ihm, komplexere Anweisungen zu verstehen und erlernte Konzepte von einem Spiel auf ein anderes zu übertragen. So könne der Agent beispielsweise sein "Verständnis vom Mining in einem Spiel nehmen und es im anderen auf das Ernten anwenden". Sima 2 könne auch multimodale Anweisungen wie Bildschirm-Skizzen verarbeiten. Darüber hinaus führe das Modell Befehle in verschiedenen Sprachen oder sogar in Emojis aus. Laut Deepmind bringen diese Fähigkeiten den Agenten in vielen Situationen an die Leistung eines menschlichen Spielers heran.

Selbstständiges Lernen in generierten Welten

Für das Training wurden zunächst menschliche Demonstrationen genutzt. Dadurch sei Sima 2 in der Lage, in neuen, automatisch generierten Umgebungen selbstständig zu lernen, heisst es weiter. Der Agent trainiert in Welten, die mit Genie 3 erstellt werden - einem KI-Modell, das interaktive 3-D-Welten dynamisch erzeugen kann. Die dabei gesammelten Daten nutzt der KI-Agent anschliessend, um seine Fähigkeiten weiterzuentwickeln. Dieser als "Self-Improvement Cycle" beschriebene Mechanismus soll es dem Agenten ermöglichen, neue Fähigkeiten ohne weitere menschliche Eingriffe zu erwerben.

Google stellt Sima 2 in einer "Research Preview" einer begrenzten Anzahl von Forschenden und Game-Studio-Partnern zur Verfügung. Das Unternehmen betont, dass dieser Schritt in Zusammenarbeit mit dem zuständigen Team für verantwortungsvolle KI erfolgt und Sicherheitsbewertungen sowie die Einrichtung entsprechender Schutzmechanismen umfasst.

Der Konzern weist jedoch darauf hin, dass weiterhin Einschränkungen bestehen: eine kurze Erinnerungsspanne, Schwierigkeiten bei langen und komplexen Denkaufgaben sowie die Begrenzungen der Steuerung via Tastatur und Maus in anspruchsvollen 3-D-Umgebungen.

 

Google hat im November auch ein KI-Tool für seine Maps-Plattform lanciert. Dieses soll eine Kartenidee innerhalb weniger Minuten in einen funktionsfähigen Prototypen umwandeln können. Lesen Sie hier mehr dazu. 

Webcode
PMPNKsix