Simulierte Unternehmenskontexte

KI-Agenten sind noch längst nicht bereit für selbstständiges Arbeiten

Uhr
von Alexia Muanza und Übersetzung: Filip Sinjakovic, dwi

Eine Studie der Carnegie Mellon University und des Allen Institute for AI zeigt, dass KI-Agenten, die auf generativer KI basieren, in einer Simulation noch immer bei den meisten beruflichen Aufgaben versagen.

(Source: wenwenf_foto / Pixabay)
(Source: wenwenf_foto / Pixabay)

Forscher der Carnegie Mellon University und des Allen Institute for AI haben die tatsächlichen Fähigkeiten generativer KI-Agenten in einer simulierten Arbeitsumgebung bewertet. Ihre Studie, die auf der Plattform "arxiv.org" veröffentlicht wurde, zeigt, dass selbst die leistungsfähigsten Modelle bei den meisten Aufgaben versagen, was ihre derzeitige Effizienz bei der Automatisierung komplexer Aufgaben in Frage stelle. 

Um diese Bewertung durchzuführen, haben die Autoren eine Open-Source-Plattform namens "TheAgentCompany" entwickelt, die ein Softwareunternehmen simuliert. Die Umgebung umfasse realistische Tools wie Gitlab, Rocketchat oder Owncloud, die lokal gehostet werden. Dieser Ansatz ziele darauf ab, die Agenten unter Bedingungen zu testen, die denen realer beruflicher Situationen nahekommen.

Erfolgsquote liegt bei maximal 30 Prozent

Die Forschenden haben laut Bericht mehrere KI-Agenten, die auf LLMs wie Gemini 2.5 Pro, GPT-4 oder Claude 3.7 Sonnet basieren, beauftragt, zusammenzuarbeiten, um 175 typische Aufgaben aus Bereichen wie Softwareentwicklung, Projektmanagement, Personalwesen oder Finanzen zu erfüllen. Dabei habe kein Agent mehr als 30 Prozent der Aufgaben selbstständig erfüllt.

Unter Einbeziehung der teilweise erfolgreichen Aufgaben ist Gemini 2.5 Pro mit einer Erfolgsquote von 30 Prozent das leistungsstärkste Modell, wie es weiter heisst. GPT-4o hingegen habe nur 8 Prozent der Aufgaben erfolgreich bewältigt, während Claude 3.7 Sonnet eine gewichtete Erfolgsquote von 26 Prozent erreicht habe. Bei den Open-Source-Modellen liegt Llama 3.1 laut Bericht bei einer Erfolgsquote von maximal 7 Prozent.

Deutliche Grenzen bei komplexen Aufgaben

Die Leistung der Agenten variiere stark je nach Art der Aufgaben, schreiben die Autoren weiter. Bei Softwareentwicklungsaufgaben seien sie relativ effizient, während die Ergebnisse bei Aufgaben aus den Bereichen Finanzen, Personalwesen oder Verwaltung deutlich schlechter ausfielen. Obwohl diese Aufgaben für Menschen als weniger komplex gelten, bereiten sie KI-Agenten grössere Schwierigkeiten, insbesondere aufgrund des Mangels an verfügbaren Trainingsdaten zu den spezifischen beruflichen Kontexten.

Die Forscher identifizieren zudem mehrere wiederkehrende Ursachen für das Scheitern: Die Agenten haben Schwierigkeiten, Zeit einzuplanen, Prioritäten zu setzen oder eine kohärente Arbeitslogik über mehrere Schritte hinweg aufrechtzuerhalten. Weiter hätten sie Schwierigkeiten, mit komplexen Schnittstellen zu interagieren oder soziale Interaktionen richtig zu interpretieren. Einige Agenten generieren so in unsicheren Situationen Antworten, die zwar plausibel erscheinen, aber nicht zum Kontext passen. Zudem versuchen sie mitunter, die Schritte einer Aufgabe zu "umgehen", indem sie die Anweisungen ignorieren, was ihre Zuverlässigkeit in anspruchsvollen beruflichen Umgebungen beeinträchtige.

Nach unten korrigierte Erwartungen

Die Ergebnisse spiegeln die vorsichtigen Prognosen von Gartner von vergangenem Juni wider, wonach bis 2027 mehr als 40 Prozent der Projekte mit KI-Agenten scheitern werden, insbesondere aufgrund des ungewissen kommerziellen Nutzens und der unterschätzten Komplexität. Gartner warnte auch vor dem Phänomen des "Agent Washing", bei dem klassische Tools wie Assistenten oder RPA (Robotic Process Automation) als echte KI-Agenten präsentiert werden, obwohl derzeit nur wenige Lösungen in der Lage seien, komplexe Aufgaben autonom zu bewältigen.

Die Autoren der Studie sind der Ansicht, dass Fortschritte bei Sprachmodellen allein nicht ausreichen. Ihrer Meinung nach müssen diese Modelle nun mit besseren langfristigen Denkfähigkeiten, robusteren Schnittstellen und effizienteren Kooperationsmechanismen kombiniert werden, um einen Durchbruch in der Automatisierung zu erzielen.

Der Studie zufolge könne generative KI zwar bestimmte Prozesse begleiten, sei aber noch weit davon entfernt, komplexe berufliche Funktionen zuverlässig automatisieren zu können. "TheAgentCompany" ist online verfügbar, damit andere Forscher oder Unternehmen ihre eigenen Agenten testen können.

 

Laut dem Gartner Hype Cycle 2025 stehen KI-Agenten an der Spitze der diesjährigen Technologietrends. Generative KI hingegen verzeichnet einen Rückgang in der Erwartungskurve.

Webcode
vCcFJ723