LLMs entwickeln eigene "Persönlichkeiten"
KI-Assistenten entwickeln bei der Code-Generierung einen jeweils eigenen Stil. Dieser geht über reine Performance-Benchmarks hinaus, wie eine Studie der Genfer Softwarefirma Sonar zeigt.

Beim Generieren von Code entwickeln grosse Sprachmodelle (LLMs) spezifische "Persönlichkeiten", wie aus einer Studie von Sonar hervorgeht. Das auf die Analyse von Codequalität spezialisierte Genfer Unternehmen untersuchte fünf Modelle: Claude Sonnet 4 und 3.7 (Anthropic), GPT-4o (OpenAI), Llama 3.2 90B (Meta) und OpenCoder-8B (Open Source). Jedes Modell absolvierte über 4400 Programmierübungen in Java.
Den Ergebnissen zufolge haben diese Modelle gemeinsame Stärken: Sie generieren syntaktisch gültigen Code, verfügen über solide algorithmische Fähigkeiten und können Konzepte zwischen Sprachen (Java und Python) übertragen.
Die untersuchten Sprachmodelle teilen aber auch gemeinsame Schwächen wie etwa einen Mangel an Sensibilität für Sicherheit. Beispielsweise stuften die Studienautoren zwischen 56 und 70 Prozent der im generierten Code entdeckten Schwachstellen als "Blocker" ein – die höchste Schweregradstufe. Zudem zeigen die Modelle wiederkehrende Probleme bei der Berücksichtigung von Software-Entwicklungsprinzipien, beispielsweise Ressourcenlecks oder Verstösse gegen API-Verträge. Darüber hinaus tendieren sie stark dazu, “Code Smell” zu produzieren (Code, der schwer zu warten ist), was über 90 Prozent der festgestellten Probleme ausmacht.
Multiple "Persönlichkeiten"
Über die Gemeinsamkeiten hinaus ordnet Sonar jedem Modell einen "Archetyp" zu, der seinen Programmierstil beschreiben soll. Claude Sonnet 4 bezeichnet Sonar als "Senior-Architekt": Das Modell besteht die meisten Tests, generiert jedoch ausführlichen und komplexen Code, der anfällig für kritische Fehler ist. OpenCoder-8B hingegen wählt einen prägnanten Ansatz, nützlich für schnelles Prototyping, weist aber die höchste Fehlerrate auf. Llama 3.2 90B präsentiert sich als "unerfülltes Versprechen" mit durchschnittlicher Leistung und einem besonders fragilen Sicherheitsprofil. GPT-4o erscheint als "effizienter Generalist": vielseitig, aber anfällig für häufige Logikfehler. Claude 3.7 zeichnet sich durch einen ausgewogeneren Stil mit umfangreicher Dokumentation aus.
Fünf Idealtypen respektive "Archetypen" beschreiben die "Persönlichkeiten", die grosse Sprachmodelle bei der Generierung von Code entwickeln. (Source: Sonar)
Laut Sonar werfen diese Ergebnisse vor allem Fragen zur Zuverlässigkeit und Sicherheit von KI-generiertem Code auf. In einem Umfeld, in dem Entwickler diese Tools immer stärker im Alltag einsetzen, hält das Genfer Unternehmen menschliche Kontrolle und die Unterstützung durch automatisierte Analysewerkzeuge für unerlässlich.
KI-Assistenten haben sich in der Schweizer Arbeitswelt inzwischen etabliert - allerdings bangt jede zweite Person hierzulande um KI-bedingten Jobverlust. Mehr dazu lesen Sie hier.

Suissedigital lanciert Digitalportal für KMU

Wie KI die Sicherheitspolitik beeinflusst

KI und Ethik: Wer trägt Verantwortung – Mensch, Organisation oder Maschine?

Menschen und Technologie als Schlüssel zum Erfolg

Begrenzte Ressourcen sind keine Entschuldigung für eine schwache Cyberabwehr

Ausweg aus KI-Agenten-Chaos – eine gemeinsame Sprache für Ihre Systeme

Künstliche Intelligenz als nächste Verteidigungslinie gegen digitale Bedrohungen

Der Kreislauf des Goldes

Umfrage unter 3.400 IT-lern beleuchtet Cybercrime-Lage
