AWS setzt für KI-Inferenz auf riesige Chips mit EPFL-Bezug
Amazon Web Services und Cerebras Systems wollen die Inferenz von KI-Modellen massiv beschleunigen. Kernstück der neuen Technologie ist ein wafergrosser Spezialchip, dessen Entwicklung auch auf das Know-how eines Mitgründers mit EPFL-Abschluss zurückgeht.
Amazon Web Services (AWS) und der Chip-Spezialist Cerebras Systems kündigen eine enge Zusammenarbeit an. In den kommenden Monaten wollen sie eine Lösung für die Inferenz generativer KI anbieten, die deutlich höhere Geschwindigkeiten erreichen soll als bestehende Angebote. Die Technologie wird in die AWS-Plattform Amazon Bedrock integriert und basiert auf den CS-3-Systemen von Cerebras.
Hintergrund dieser Partnerschaft ist der Aufstieg der agentenbasierten KI. Solche Systeme, die etwa bei der Software-Entwicklung zum Einsatz kommen, erzeugen bis zu fünfzehnmal mehr Tokens als rein dialogbasierte KI-Anwendungen, wie Cerebras mitteilt. Dieser Trend erhöht den Bedarf an extrem schnellen Inferenz-Kapazitäten, die für viele Produktionsumgebungen entscheidend sind.
Cerebras gibt an, dass seine Systeme je nach Modell und Konfiguration bis zu 3000 Tokens pro Sekunde verarbeiten können. Diese Leistung verdanken sie der "Wafer-Scale Engine"-Architektur (WSE). Die aktuelle Version WSE-3 gilt laut dem Unternehmen als der grösste Prozessor der Welt für KI-Anwendungen. Dieser Chip sei 56-mal grösser als die stärksten GPUs und ermögliche in bestimmten Anwendungen eine über 20-mal höhere Leistung bei Training und Inferenz. Gleichzeitig soll der Energieverbrauch pro Recheneinheit geringer sein.
Die Ursprünge dieser Technologie liegen teilweise in der Schweiz: Jean-Philippe Fricker, Mitgründer und Chief System Architect von Cerebras Systems, ist Absolvent der Eidgenössischen Technischen Hochschule Lausanne (EPFL).
Die Partnerschaft mit AWS umfasst auch die Entwicklung einer sogenannten disaggregierten Inferenz-Architektur. Dabei teilen sich die Systeme die Rechenlasten: Die Trainium-Chips von AWS übernehmen bestimmte Verarbeitungsschritte wie das "Prefill", während die Cerebras-Systeme die Hauptarbeit leisten.
Zu den finanziellen Details der Kooperation äussern sich die Partner nicht. Zur Einordnung der Grössenordnung: Laut der Nachrichtenagentur Reuters traf das Unternehmen kürzlich eine Vereinbarung mit OpenAI - in einem Deal mit einem geschätzten Volumen von rund 10 Milliarden US-Dollar.
Aufgrund des KI-Booms steuert der weltweite Markt für Speicherchips übrigens auf ein Rekordwachstum zu und dürfte laut einer Analyse von Trendforce bis 2027 ein Volumen von 842,7 Milliarden Dollar erreichen - mehr dazu lesen Sie hier.
Apple erhöht Preise von Macbooks und iPads
"Star Wars" mit winzigem Budget
Update: OpenAI präsentiert ersten Inferenz-Chip für KI-Modelle
Augmented HR: Technologie trifft Organisation
Digisanté, E-GD und die Realität der Digitalisierung im Schweizer Gesundheitswesen
Eine neue Art von Pixel
Das Zeitalter der physischen Archive ist vorbei
SwissICT und Swico aktualisieren ICT-Modellverträge
Xebia ordnet Regionen neu und verliert DACH-Chef