AWS setzt für KI-Inferenz auf riesige Chips mit EPFL-Bezug

News

Amazon Web Services und Cerebras Systems wollen die Inferenz von KI-Modellen massiv beschleunigen. Kernstück der neuen Technologie ist ein wafergrosser Spezialchip, dessen Entwicklung auch auf das Know-how eines Mitgründers mit EPFL-Abschluss zurückgeht.

Die Cerebras Wafer Scale Engine ist mehr als fünfzigmal grösser in der Fläche als die leistungsstärksten Grafikprozessoren auf dem Markt. (Source: Cerebras Systems)

Amazon Web Services (AWS) und der Chip-Spezialist Cerebras Systems kündigen eine enge Zusammenarbeit an. In den kommenden Monaten wollen sie eine Lösung für die Inferenz generativer KI anbieten, die deutlich höhere Geschwindigkeiten erreichen soll als bestehende Angebote. Die Technologie wird in die AWS-Plattform Amazon Bedrock integriert und basiert auf den CS-3-Systemen von Cerebras.

Hintergrund dieser Partnerschaft ist der Aufstieg der agentenbasierten KI. Solche Systeme, die etwa bei der Software-Entwicklung zum Einsatz kommen, erzeugen bis zu fünfzehnmal mehr Tokens als rein dialogbasierte KI-Anwendungen, wie Cerebras mitteilt. Dieser Trend erhöht den Bedarf an extrem schnellen Inferenz-Kapazitäten, die für viele Produktionsumgebungen entscheidend sind.

Cerebras gibt an, dass seine Systeme je nach Modell und Konfiguration bis zu 3000 Tokens pro Sekunde verarbeiten können. Diese Leistung verdanken sie der "Wafer-Scale Engine"-Architektur (WSE). Die aktuelle Version WSE-3 gilt laut dem Unternehmen als der grösste Prozessor der Welt für KI-Anwendungen. Dieser Chip sei 56-mal grösser als die stärksten GPUs und ermögliche in bestimmten Anwendungen eine über 20-mal höhere Leistung bei Training und Inferenz. Gleichzeitig soll der Energieverbrauch pro Recheneinheit geringer sein.

Die Ursprünge dieser Technologie liegen teilweise in der Schweiz: Jean-Philippe Fricker, Mitgründer und Chief System Architect von Cerebras Systems, ist Absolvent der Eidgenössischen Technischen Hochschule Lausanne (EPFL).

Die Partnerschaft mit AWS umfasst auch die Entwicklung einer sogenannten disaggregierten Inferenz-Architektur. Dabei teilen sich die Systeme die Rechenlasten: Die Trainium-Chips von AWS übernehmen bestimmte Verarbeitungsschritte wie das "Prefill", während die Cerebras-Systeme die Hauptarbeit leisten.

Zu den finanziellen Details der Kooperation äussern sich die Partner nicht. Zur Einordnung der Grössenordnung: Laut der Nachrichtenagentur Reuters traf das Unternehmen kürzlich eine Vereinbarung mit OpenAI - in einem Deal mit einem geschätzten Volumen von rund 10 Milliarden US-Dollar.

Aufgrund des KI-Booms steuert der weltweite Markt für Speicherchips übrigens auf ein Rekordwachstum zu und dürfte laut einer Analyse von Trendforce bis 2027 ein Volumen von 842,7 Milliarden Dollar erreichen - mehr dazu lesen Sie hier.

Artikel teilen: