Frontier i dalje prvi, Aurora i službeno drugo exascale superračunalo

Superračunalo Aurora s Intelovim procesorom ponovno nije uspjelo svrgnuti Frontier s AMD-ovim pogonom, ali Intel ipak ima najbrže AI superračunalo s HPL-MxP benchmarkom

Mladen Smrekar utorak, 14. svibnja 2024. u 07:45
Aurora se suočava s problemima stabilnosti zbog kvarova hardvera, kvarova u hlađenju i grešaka u radu 📷 Intel
Aurora se suočava s problemima stabilnosti zbog kvarova hardvera, kvarova u hlađenju i grešaka u radu Intel

Očekivalo se da će Intelom pokretano superračunalo Aurora na listi superračunala preuzeti prvo mjesto od Frontiera koji pokreće AMD, ali to se ipak nije dogodilo. Utješno, Aurora je prošla najbolje u mjerenju mješovite preciznosti HPL-MxP usmjerenog na umjetnu inteligenciju. To znači da se Intel sad može pohvaliti pogonom najbržeg AI superračunala na svijetu s 10,6 AI exaflopsa performansi. 

Probijanje granice

Ne smije se pritom smetnuti s uma Aurora još uvijek nije potpuno operativna pa cijeli sustav nije korišten ni za jednu benchmark prijavu. No, Aurora je i dalje opterećena brojnim problemima poput kvarova hardvera i sustava hlađenja, operativnih pogrešaka i nestabilnosti mreže. Stalni problemi ipak iznenađuju jer sustav je najavljen još prije devet godina, druga revizija je nakon otkazivanja prve verzije najavljena prije pet godina, a konačne komponente instalirane su prije jedanaest mjeseci. 

Sustav sadrži 21.248 CPU-a i 63.744 GPU-a raspoređenih na 10.624 računalnih ploča, ali Argonne National Laboratory (ANL) ponovno nije mogao poslati puni Linpack za Top500 listu. Umjesto toga, Aurora je zauzela drugo mjesto s 1,012 exaflopsa, probijajući granicu s 87% aktivnog sustava (9234 od punih 10.624 čvorova). Ti su rezultati samo učvrstili Aurorinu poziciju na drugom mjestu; prije šest mjeseci Aurora je s pola sustava također zauzela drugo mjesto, dosegnuvši tada 585,34 petaflopsa.

Vršna i održiva izvedba

Aurora bi trebala biti brža od Frontiera u High-Performance Linpacku i tako preuzeti vodstvo u Top500, ali jasno je da će sustav trebati više podešavanja. Frontier je ~19% brži od Aurore s 1,206 exaflopsa performansi i, uz pretpostavku linearnog skaliranja, Aurora i dalje ne bi pobijedila nakon dodavanja preostalih 13% čvorova koji nisu korišteni za usporednu analizu.

Intel je nahvalio Aurorinu teoretsku vršnu izvedbu od 2 exaflopsa (Rpeak), ali superračunala se mjere održivom izvedbom (Rmax). Frontier isporučuje 70% svog vrhunca kao održive performanse u Linpacku, dok Aurora isporučuje samo 51% svog vrhunca. Aurora bi lako zauzela prvo mjesto kad bi isporučila sličnih 70% svojih vršnih performansi (~1,4 exaflopsa) tijekom trajnih radnih opterećenja.


Najbolja tri u Top500

Frontier
Frontier

Frontier ostaje sustav broj 1 u TOP500. Ovaj HPE Cray EX sustav prvi je američki sustav s performansama većim od jednog exaflopsa. Instaliran je u Nacionalnom laboratoriju Oak Ridge (ORNL) u Tennesseeju, gdje njime upravlja američko ministarstvo energetike (DOE). Trenutno je postigao 1,206 exaflopsa koristeći 8,699.904 jezgre. Arhitektura HPE Cray EX kombinira 3. generaciju AMD EPYCTM procesora optimiziranih za HPC i AI, s AMD InstinctTM 250X akceleratorima i međuvezom Slingshot-11.

Aurora
Aurora

Aurora je trenutno broj 2 s HPL rezultatom od 1,012 exaflopsa. Instaliran je u Argonne Leadership Computingu  Facility, Illinois, SAD, gdje njime također upravlja Ministarstvo energetike (DOE). Ovaj novi Intelov sustav temelji se na HPE Cray EX - Intel Exascale Compute Blades. Koristi Intel Xeon CPU Max Series procesore, Intel Data Center GPU Max Series akceleratore i Slingshot-11 interkonekt.

Eagle
Eagle

Eagle je sustav koji je Microsoft instalirao u svoj oblak Azure. Ovaj Microsoftov NDv5 sustav temelji se na Xeon Platinum 8480C procesorima i NVIDIA H100 akceleratorima, a postigao je HPL rezultat od 561 flopsa.