- Beyond Goodbye Japanese Romantic Drama Series: Everything We Know So Far - September 16, 2023
- The Perfect Audience Metric for Streaming Doesn’t Exist (and Never Will) - September 16, 2023
- The Perfect Audience Metric for Streaming Doesn’t Exist (and Never Will) - September 16, 2023
[ad_1]
Der Bau eines Supercomputers ist immer eine Herausforderung, aber die Entwicklung des branchenweit ersten Systems der Exascale-Klasse ist eine Begegnung mit etwas völlig Unerwartetem und erfordert viel Arbeit mit Hardware und Software. Leider könnte dies beim Frontier-Supercomputer des Oak Ridge National Laboratory passieren, der ohne zahlreiche Hardwareausfälle kaum einen Tag überstehen kann.
Frontier von ORNL ist das erste System der Branche, das entwickelt wurde, um eine Spitzenleistung von bis zu 1.685 FP64 ExaFLOPS unter Verwendung von AMDs 64-Kern-EPYC-Trento-Prozessoren, Instinct MI250X-Rechen-GPUs und HPE-Slingshot-Verbindungen mit 21 MW Leistung zu liefern. HPE baute das System und verwendete die Cray EX (öffnet in neuem Tab) Architektur, die für Scale-out-Anwendungen entwickelt wurde, hauptsächlich für ultraschnelle Supercomputer.
Während der Frontier-Supercomputer auf dem Papier außergewöhnlich gut aussieht und Hardwareteile des Maschinensystems geliefert wurden, scheint es, als würden Probleme mit der Hardware die Maschine davon abhalten, online zu gehen und Forschern zur Verfügung zu stehen, die eine Leistung von etwa 1 FP64 ExaFLOPS benötigen.
„Wir arbeiten an Hardwareproblemen und stellen sicher, dass wir verstehen (was sie sind)“, sagte Justin Whitt, Programmdirektor der Oak Ridge Leadership Computing Facility (OLCF), in einem Interview mit InsideHPC (öffnet in neuem Tab). „Sie werden Fehler in dieser Größenordnung haben. Die mittlere Zeit zwischen Ausfällen auf einem System dieser Größe beträgt Stunden, nicht Tage.“
Gerüchte über mögliche Hardware-Ausfälle von Frontier kursieren schon seit geraumer Zeit. Einige sagten, dass das System Probleme mit der Slingshot-Verbindung hatte, so ein anderer InsideHPC (öffnet in neuem Tab) Geschichte. Darüber hinaus gaben andere an, dass AMDs Instinct MI250X-Compute-GPUs in diesem Jahr nicht so zuverlässig waren wie erwartet. Denken Sie daran, dass die X-Version mit einer höheren Anzahl von Stream-Prozessoren und hohen Taktraten nur ausgewählten Kunden zur Verfügung steht.
Herr Whitt bestätigte nicht, dass das System irgendwelche besonderen Probleme mit Instinct oder Slingshot hat, aber er betonte, dass die Maschine unter zahlreichen Hardwareproblemen leidet.
„Viele Herausforderungen konzentrieren sich darauf [GPUs], aber das ist nicht die Mehrheit der Herausforderungen, die wir sehen“, sagte der Leiter der OLCF. „Es ist eine ziemlich gute Streuung unter den häufigsten Verursachern von Teileausfällen, die einen großen Teil davon ausmachen. Ich glaube nicht, dass wir uns zu diesem Zeitpunkt große Sorgen um die AMD-Produkte machen.“
Der Frontier-Supercomputer des Oak Ridge National Laboratory ist bei weitem nicht das einzige System, das die Cray EX-Architektur von HPE mit Slingshot-Verbindungen, AMDs EPYC-CPUs und AMDs Instinct-Rechen-GPUs verwendet. Beispielsweise liefert der finnische Supercomputer Lumi (Cray EX, EPYC Milan, Instinct MI250X-Rechen-GPUs) 550 PetaFLOPS Spitzenleistung und wird offiziell als drittleistungsstärkster Supercomputer der Welt eingestuft. Vielleicht gilt das Problem für die Größe der Maschine, die insgesamt 60 Millionen Teile verwendet.
Nur die Zeit wird zeigen, ob der Frontier-Supercomputer, der ursprünglich versprochen wurde, 2022 ans Netz zu gehen, den Forschern ab 2023 zur Verfügung stehen wird, da er immer noch nicht offiziell im Einsatz ist.
[ad_2]