logistic ready

Fachportal für Intralogistik

2 ExaFLOPS, Zehntausende CPUs und GPUs

2 ExaFLOPS, Zehntausende CPUs und GPUs

Das Argonne National Laboratory und Intel gaben am Donnerstag bekannt, dass sie alle 10.624 Nullen auf dem Aurora-Supercomputer installiert haben, einer 2015 angekündigten Maschine mit einer besonders holprigen Geschichte. Das System verspricht die höchste theoretische Rechenleistung bei 2 FP64 ExaFLOPS mit einer Kombination aus Zehntausenden Xeon Max-CPUs von „Sapphire Rapids“ mit integriertem HBM2E-Speicher und einer „Ponte Vecchio“ Max-GPU für das Rechenzentrum. Das System wird noch in diesem Jahr online gehen.

„Aurora ist Intels erster Einstiegs-GPU-Einsatz, das weltweit größte Xeon Max-CPU-basierte System und der größte GPU-Cluster“, sagte Jeff McPhee, Intel Corporate Vice President und General Manager der Super Compute Group.

Der Aurora-Supercomputer sieht schon von den Zahlen her beeindruckend aus. Die Hardware wird von 21.248 Allzweckprozessoren mit über 1,1 Millionen Kernen für Workloads angetrieben, die herkömmliche CPU-Leistung erfordern, und 63.744 GPUs für KI- und HPC-Workloads. In Bezug auf den Speicher verfügt das Aurora über 1,36 PB integrierten HBM2E-Speicher und 19,9 PB DDR5-Speicher, die von CPUs genutzt werden, zusätzlich zu den 8,16 PB HBM2E, die von Ponte Vecchi-GPUs gehalten werden.

Aurora verwendet 166 Racks mit jeweils 66 Blades. Es erstreckt sich über acht Reihen und nimmt eine Fläche ein, die der Größe von zwei Basketballplätzen entspricht. Dabei ist das Aurora Storage-Subsystem nicht mitgezählt, das 1.024 All-Flash-Speicherknoten verwendet, die 220 TB Speicher und eine Gesamtbandbreite von 31 TB/s bereitstellen. Derzeit veröffentlicht das Argonne National Laboratory keine offiziellen Stromverbrauchszahlen für Aurora oder sein Speichersubsystem.

Der Supercomputer, der für eine Vielzahl von Arbeitslasten von Kernfusionssimulationen bis hin zu Vorhersagen und von Aerodynamik bis hin zu medizinischer Forschung eingesetzt wird, nutzt die Shasta-Supercomputerarchitektur von HPE mit Slingshot-Verbindungen. Bevor das System die ANL-Abnahmetests besteht, wird es in der Zwischenzeit für groß angelegte wissenschaftliche generative KI-Modelle verwendet.

Siehe auch  Google Pixel 9: Neue Bilder verraten Design und schnelleres Laden

„Während wir an Akzeptanztests arbeiten, werden wir Aurora nutzen, um einige groß angelegte generative Open-Source-KI-Modelle im Bereich der Wissenschaft zu trainieren.“ sagte Rick Stevens, stellvertretender Laborleiter am Argonne National Laboratory. Mit über 60.000 Intel Max-GPUs, einem sehr schnellen I/O-System und einem riesigen, vollständigen Solid-State-Speichersystem ist Aurora die ideale Umgebung für das Training dieser Modelle.

Selbst mit installierten Aurora-Blades musste der Supercomputer noch eine Reihe von Abnahmetests bestehen, was bei Supercomputern üblich ist. Nach erfolgreicher Digitalisierung und Inbetriebnahme bis Ende des Jahres soll eine theoretische Leistung von über 2 ExaFLOPS (zwei Milliarden Gleitkommaoperationen pro Sekunde) erreicht werden. Mit phänomenalen Leistungen soll es sich den Spitzenplatz in der Top500-Liste sichern.

Die Installation des Aurora-Supercomputers markiert mehrere Meilensteine: Es ist der branchenweit erste Supercomputer mit einer Leistung von mehr als 2 ExaFLOPS und das erste Intel-basierte Gerät der ExaFLOPS-Klasse. Schließlich markiert es den Abschluss der Aurora-Saga, die vor acht Jahren begann, als die Reise des Supercomputers auf einige Hindernisse stieß.

Ursprünglich im Jahr 2015 vorgestellt, sollte der Aurora ursprünglich mit Intel Er muss die Vereinbarung mit dem Argonne National Laboratory über die Lieferung des ExaFLOPS-Systems bis 2021 neu aushandeln.

Die Systemauslieferung verzögerte sich durch Komplikationen mit den Ponte-Vecchio-Rechenkacheln aufgrund einer Verzögerung bei Intels 7-nm-Produktionsknoten (jetzt bekannt als Intel 4) und der Notwendigkeit, die Boxen für die N5-Prozesstechnologie (5-nm-Klasse) von TSMC neu zu gestalten. Ende letzten Jahres stellte Intel schließlich seine GPU Max-Rechenzentrumsprodukte vor und hat bereits mehr als 60.000 GPUs an ANL geliefert.