EPFL entwickelt Sprachmodell nach dem Vorbild des Gehirns
Forschende der EPFL haben ein Sprachmodell entwickelt, das sich an der arbeitsteiligen Funktionsweise des menschlichen Gehirns orientiert. Das Modell soll nachvollziehbarer machen, wie KI-Systeme zu ihren Antworten gelangen.
Sprachmodelle wie ChatGPT liefern zwar oft überzeugende Antworten. Wie sie zu ihren Schlussfolgerungen gelangen, bleibt jedoch meist eine Black Box. Genau dort setzt ein Forschungsteam der EPFL an: Es hat mit "MiCRo" ("Mixture of Cognitive Reasoners") ein grosses Sprachmodell entwickelt, dessen Architektur sich an der Organisation des menschlichen Gehirns orientiert. Dadurch soll sich besser nachvollziehen lassen, wie das Modell zu seinen Schlussfolgerungen gelangt und wie sich dieser Prozess gezielt beeinflussen lässt, wie die Hochschule mitteilt.
Das Natural Language Processing Lab und das NeuroAI Lab der EPFL entwickelten "MiCRo" gemeinsam mit der Neurowissenschaftlerin Greta Tuckute von der Harvard University und dem Massachusetts Institute of Technology (MIT). Das Modell verarbeitet Anfragen nicht als einheitliches System, sondern verteilt sie gemäss der EPFL auf mehrere spezialisierte Module, die unterschiedlichen Hirnregionen nachempfunden sind.
Vier Module übernehmen unterschiedliche Aufgaben
Klassische Sprachmodelle greifen bei ihren Antworten auf das Wissen zurück, das sie während des Trainings gelernt haben. Welche Informationen sie dabei auswählen und wie stark sie diese gewichten, lässt sich jedoch oft nur schwer nachvollziehen.
"MiCRo" teilt diese Aufgaben auf vier spezialisierte Module auf. Sie decken die Bereiche Sprache, Logik, soziales Schlussfolgern und Weltwissen ab. Jede Schicht des Modells enthält alle vier Module. Für jedes einzelne Wort einer Eingabe entscheidet ein sogenannter Router, welches Modul die Verarbeitung übernimmt. Je nach Wort und Verarbeitungsschritt kommen unterschiedliche spezialisierte Module zum Einsatz.
"Das Gehirn ist in spezialisierte Regionen gegliedert, die jeweils bestimmte Aufgaben übernehmen", lässt sich Badr Al-Khamissi, Doktorand an der EPFL und Leiter des Forschungsprojekts, in der Mitteilung zitieren. "Diese Arbeitsteilung erkennen wir in heutigen Sprachmodellen bislang nicht in vergleichbarer Form."
Nach Angaben der EPFL macht diese Architektur die Arbeitsweise des Modells besser nachvollziehbar. Zudem lässt sich gezielt steuern, welche Art von Schlussfolgerungen stärker ins Gewicht fällt. So können Forschende etwa das soziale Modul stärker gewichten oder den Einfluss des Logik-Moduls reduzieren. Bei klassischen Sprachmodellen geschieht eine solche Steuerung meist über Prompts. "MiCRo" ermöglicht sie direkt über die Architektur des Modells.
KI und Hirnforschung sollen voneinander lernen
Für die Entwicklung des Sprachmodells griff das Forschungsteam auf Erkenntnisse aus den Neurowissenschaften zurück. Gemeinsam mit Greta Tuckute untersuchten die Forschenden, welche Hirnregionen bei unterschiedlichen Aufgaben besonders aktiv sind, und übertrugen dieses Prinzip auf das Sprachmodell.
Anschliessend testeten sie "MiCRo" mit unterschiedlich anspruchsvollen Aufgaben, um zu beobachten, welche Module jeweils besonders stark aktiviert wurden. "Das Modell konnte diese Spezialisierung selbstständig erkennen", sagt Al-Khamissi.
Nach Ansicht der Forschenden könnte der Wissenstransfer künftig in beide Richtungen funktionieren: Erkenntnisse aus den Neurowissenschaften fliessen in die Entwicklung von KI-Modellen ein. Umgekehrt könnten diese Modelle dazu beitragen, das menschliche Gehirn besser zu verstehen.
Übrigens: Mit Apertus entwickelt die EPFL ein vollständig offenes Sprachmodell - wie die Hochschule dieses für den Einsatz im Gesundheitswesen weiterentwickelt, erfahren Sie hier.
Swico und Sens rezyklieren so viele Geräte wie noch nie
Whatsapp schützt Telefonnummern künftig mit Benutzernamen
Rechenzentren belasten das Klima stärker als erwartet
Welche Rolle KI in der nächsten Generation von ERP-Systemen spielt
Die Industrialisierung des Betrugs: KI verändert die Finanzkriminalität
EPFL entwickelt Sprachmodell nach dem Vorbild des Gehirns
Wie ein flaches Netzwerk die Rechenzentren von AWS grundlegend verändert
Software für den Kreditmarkt: Vom Antrag bis zur Refinanzierung
SOWARIS setzt auf Schweizer Cloud: Virtual Datacenter als IT-Fundament