Auf den kleinen Modellen spielt die Musik

Meinungen

Joël Orizet, stellvertretender Chefredaktor. (Source: Netzmedien)

Large Language Models (LLMs) sind sozusagen die Cybertrucks unter den KI-Modellen: auffällig, imposant, energieintensiv und gerüstet für scheinbar alle erdenklichen Einsatzzwecke. Kleine Sprachmodelle hingegen sind eher so etwas wie die guten alten VW Käfer: unscheinbar, zweckmässig, alltagstauglich und robust. Und wie sich herausstellt, sind Small Language Models (SLMs) nicht nur energieeffizienter als ihre grossen Gegenstücke, sondern auch viel mächtiger, als man vielleicht meint.

Zugegeben, der Vergleich mit dem Cybertruck ist fies. Grosse Sprachmodelle sind offensichtlich viel erfolgreicher und praktischer als Elon Musks wahnwitzige Minecraft-Mobile, die Tesla dem Vernehmen nach mit lächerlichen Karosseriefehlern ausliefert. LLMs eignen sich zum Erstellen von Inhalten wie Bildern, Code und Text; sinnvoller ist es allerdings, ChatGPT und Konsorten nicht einfach als Input-Output-Maschinen, sondern als Sparringspartner zu betrachten, die einem nicht die Denkarbeit abnehmen, sondern etwa beim Brainstorming, beim Recherchieren oder beim Fabrizieren oder Überprüfen von Code-Bausteinen unterstützen. Doch auch bei solchen Use Cases zeigen sich früher oder später die Schwächen von grossen Sprachmodellen: Sie halluzinieren, haben nur ein sehr begrenztes Kontextverständnis, verbrauchen viele Ressourcen sowie Energie und bergen Risiken für die Privatsphäre.

Kleine Sprachmodelle haben demgegenüber diverse Vorteile. Sie laufen lokal, schnell und vergleichsweise günstig – auch auf Laptops oder Smartphones. Dementsprechend sind sie auch datenschutzfreundlicher. Und vor allem sind sie besser kontrollierbar: Kleine Modelle lassen sich gezielt finetunen oder in bestimmte Rollen zwingen. Somit kann man SLMs dazu bringen, Dinge zu tun, die über die Fähigkeiten von LLM-Anwendungen weit hinausgehen.
Was das bedeuten kann, zeigt sich eindrucksvoll auf einem Gebiet, das aus Sicht der B2B-Informatik wohl bestenfalls als Nebenschauplatz in Erscheinung tritt, nämlich in der Musikproduktion. Dort gibt es bereits haufenweise KI-Anwendungen auf Basis grosser Sprachmodelle. Viele davon sind dafür gedacht, Musikstücke basierend auf Texteingaben respektive Prompts zu generieren. Besonders gut funktioniert das zurzeit übrigens mit einem Tool namens Suno AI. Wer sich damit Lieder zusammenpromptet, bekommt durchaus beeindruckende Ergebnisse. Die klingen zwar sehr formelhaft und vorhersehbar – diesen Vorwurf müssen sich aber auch viele menschengemachte Popsongs gefallen lassen. Der springende Punkt ist jedoch: Mit Ausnahme der Produzenten von Fahrstuhlmusik will wohl kaum jemand, dem das Musikmachen am Herzen liegt, ernsthaft mit einem Automaten arbeiten, der nichts weiter generiert als generischen Output.

Viel spannendere Möglichkeiten eröffnen sich mit kleinen Sprachmodellen. Ein Beispiel dafür liefert ein Projekt von Jordan Rudess, Klaviervirtuose, Keyboarder, Softwareentwickler und Mitglied der Prog-Rock-Band Dream Theater. In Zusammenarbeit mit MIT-Forschern trainierte er ein SLM so, dass es seine Spielweisen nachahmen kann – und vor allem: dass das Modell in der Lage ist, quasi in Echtzeit auf sein Spiel zu reagieren. In einem Youtube-Interview mit dem Musikproduzenten Rick Beato führt der Keyboarder vor, wie die KI nach dem Call-and-Response-Prinzip mit ihm zusammen musiziert: Er improvisiert eine Phrase und die KI antwortet mit einer eigenen, an die Rudess wiederum anknüpfen muss. Die Idee dahinter ist, eine interaktive KI zu entwickeln, die ihn nicht nur begleiten, sondern mit neuen Impulsen kreativ herausfordern kann, wie Rudess erklärt. Die technische Challenge für die Entwickler besteht zum einen im minutiösen Finetuning, das dafür sorgen soll, dass die KI die verschiedenen Stile sowie Nuancen wie etwa Anschlagsdynamiken des Virtuosen imitieren kann, und andererseits in der Reaktionszeit, die im Rahmen von Millisekunden liegen muss.

Das Beispiel erinnert daran, dass die Entwicklung von generativer KI noch immer am Anfang steht – und dass die wirklich spannenden Anwendungen vielleicht erst noch kommen. Schon heute steht jedenfalls fest: So generisch der Output einer generativen KI auch immer sein mag: Es kommt immer darauf an, was man damit anfängt. Und was die Frage nach dem richtigen Modell angeht: Je nach Anspruch und Ausgangslage ist ein SLM womöglich die bessere Wahl als ein LLM. Oder, um es mit dem Vergleich mit den Autos auszudrücken: Ein flotter VW Käfer tut’s vielleicht besser als ein kantiger Monstertruck.

Artikel teilen: