Partner-Post Advertorial Amazon Web Services

Wie ein flaches Netzwerk die Rechenzentren von AWS grundlegend verändert

Uhr
von Giacomo Bernardi, Senior Principal Engineer at AWS

Jahrzehntelang galten Fat-Tree-Netzwerke als Standard in Rechenzentren. AWS hat nun eine flache Netzwerkarchitektur im produktiven Betrieb eingeführt, die mit 69 Prozent weniger Routern auskommt und den Datendurchsatz um bis zu 33 Prozent steigert.

Ratul, Giacomo, Sesh in fornt of RNG racks
Ratul, Giacomo, Sesh in fornt of RNG racks

In heutigen Rechenzentren läuft der Datenverkehr über eine hierarchische Struktur, die sogenannte Fat Tree. Das Prinzip ähnelt einem Organigramm: Router sind in Schichten angeordnet, Datenpakete klettern die Hierarchie hinauf, bis sie den richtigen Ast zum Ziel-Router finden, und werden dann nach unten weitergeleitet.
 
Diese Architektur ist einfach zu implementieren, hat aber strukturelle Schwächen, denn zusätzliche Router-Schichten erzeugen Overhead. Router an der Spitze des Baums neigen zu Überlastung. Und weil die Struktur stark verknüpft ist, kann der Ausfall eines einzelnen Routers ganze Netzbereiche abschneiden. Diese Netzwerke sind weder besonders effizient noch besonders robust.

Die Idee hinter RNG

Die theoretisch bessere Alternative ist seit den frühen 1990er Jahren bekannt: ein flaches Netzwerk, in dem Router direkt miteinander verbunden sind, ohne feste Hierarchie. Mathematiker haben gezeigt, dass eine zufällige Topologie, bei der jeder Router sich mit einigen anderen zufällig verbindet, die optimale Netzwerkstruktur für Routing ergibt. Solche Netzwerke bieten viele verschiedene Wege zwischen allen Router-Paaren und sind widerstandsfähig.
 
In der Praxis war diese Idee jedoch bisher nicht umsetzbar. Zufällig verkabelte Router ergeben ein Chaos aus Kabeln. Und das Berechnen optimaler Pfade durch ein zufälliges Netzwerk übersteigt die Kapazitäten handelsüblicher Router bei weitem. Das Konzept blieb daher jahrzehntelang Theorie. AWS hat dieses Problem mit einem neuen Ansatz gelöst: RNG (Resilient Network Graphs), einer quasi-zufälligen Topologie, die Vorteile zufälliger Verbindungen beibehält und trotzdem physisch realisierbar ist.

ShuffleBox und Spraypoint

Zwei Neuentwicklungen machen RNG praxistauglich. Die erste ist die ShuffleBox, ein passives optisches Bauteil ohne eigene Stromversorgung. Sie sitzt zwischen den Servern und den Verbindungen zu anderen ShuffleBoxen. Die internen Kabel sind nach einem festen Muster geschaltet, sodass die Verbindungen zwischen verschiedenen ShuffleBoxen in ihrer Gesamtheit eine quasi-zufällige Topologie erzeugen. Wenn ein neues Server-Rack angeschlossen wird, steckt der Techniker es einfach in einen freien Port der lokalen ShuffleBox. Keine Neuverkabelung an anderer Stelle.
 
Die andere Neuentwicklung ist das Routing-Protokoll Spraypoint. Es besteht aus zwei Elementen: Der Quell-Router verteilt den Datenverkehr zufällig auf alle seine Nachbar-Router. Von dort leitet ein klassischer Shortest-Path-Algorithmus die Pakete zu sogenannten Waypoints, die den Verkehr zum Ziel-Router weiterführen. Spraypoint bietet fast doppelt so viele unabhängige Pfade zwischen Routern wie Standard-Shortest-Path-Routing. Das verringert Staus und erhöht die Ausfallsicherheit.

Zahlen und Produktion

Die Ergebnisse im produktiven Betrieb sind messbar. RNG kommt mit 69 Prozent weniger Routern aus als ein vergleichbares Fat-Tree-Netzwerk, während der Datendurchsatz um bis zu 33 Prozent steigt. Der Stromverbrauch der Netzwerkkomponenten sinkt voraussichtlich um 40 Prozent gegenüber der bisherigen Architektur, was die CO2-Emissionen senkt.
 
Das erste Datenzentrum in der Produktion auf Basis von RNG ging Ende 2024 in Irland in Betrieb. Zusätzlich wurde seit April 2026 die neue Architektur zur Standard-Architektur für den Grossteil der neuen AWS-Rechenzentren weltweit. Für Kunden bedeutet das eine robustere Infrastruktur, ohne dass eine einzige Zeile Code angepasst werden muss.
 

Webcode
rXcVjPFz