ETH und EPFL stellen eigenes KI-Modell vor

News

Die ETHs Zürich und Lausanne und das Schweizer Supercomputer-Zentrum entwickeln ein eigenes grosses Sprachmodell. Es soll vollständig offen sein und über 1000 Sprachen beherrschen. Das Modell erscheint voraussichtlich im Spätsommer 2025 in zwei Versionen.

(Source: FAMILY STOCK / stock.adobe.com)

Die Ende 2023 vorgestellte "Swiss AI"-Initiative trägt erste Früchte. Im Rahmen der Initiative entwickeln die ETHs Lausanne und Zürich und das nationale Supercomputer-Zentrum (CSCS) ein eigenes grosses Sprachmodell (LLM). Aktuell laufen noch die letzten Tests, bevor die Institutionen es voraussichtlich im Spätsommer 2025 unter einer Open-Source-Lizenz veröffentlichen wollen.

In ihrer Mitteilung spricht die ETH Zürich von einem "Sprachmodell im Dienste der Gesellschaft". Eines seiner wichtigen Merkmale ist, dass das LLM vollständig offen sein soll: Quellcode und Gewichte werden öffentlich verfügbar sein, und die Trainingsdaten werden transparent und reproduzierbar sein, wie die Hochschule erklärt. Imanol Schlag, Forscher am ETH AI Center und Co-Leiter des LLM-Projekts, erklärt: "Völlig offene Modelle ermöglichen Anwendungen, die ein hohes Mass an Vertrauenswürdigkeit gewährleisten, und sie sind notwendig, um die Forschung zu den Risiken und Chancen der KI voranzutreiben. Transparente Prozesse ermöglichen auch die Einhaltung der Rechtsvorschriften."

Auch beim Training des Modells habe man sich an aktuelle Regulierungen gehalten. Namentlich erwähnt die ETH das Schweizerische Datenschutzgesetz, das Schweizerische Urheberrecht und die Transparenzverpflichtungen im Rahmen der KI-Verordnung der EU (EU AI Act).

Zwei Versionen

Von Anfang an habe man ein Augenmerk auf die Mehrsprachigkeit des entstehenden LLMs gelegt, heisst es weiter: Das Basismodell wurde demnach mit einem grossen Textdatensatz von über 1500 Sprachen trainiert – etwa 60 Prozent waren Englisch und 40 Prozent andere Sprachen – hinzukamen Code- und Mathematikdaten. Da Inhalte aus allen Sprachen und Kulturen vertreten seien, punkte das resultierende Modell mit einer hohen globalen Anwendbarkeit. So beherrsche das Modell über 1000 Sprachen.

Das LLM wird dereinst in zwei Grössen veröffentlicht, mit 8 Milliarden und mit 70 Milliarden Parametern. Die Anzahl der Parameter spiegelt dabei die Fähigkeit eines Modells wider, zu lernen und komplexe Antworten zu erzeugen, wie es heisst. Die grössere Version werde zu den leistungsstärksten, vollständig offenen Modellen weltweit gehören, schreibt die ETH. Trainiert wird das Modell auf dem Supercomputer "Alps" des CSCS, über den Sie hier mehr erfahren.

Wie grosse (Open-Source-)Sprachmodelle funktionieren und welche Faktoren man bei der Auswahl eines grossen Sprachmodells berücksichtigen muss, erfahren Sie im diesem Fachbeitrag.

Artikel teilen: