(資料圖片僅供參考)
建造一臺超級計算機總是具有挑戰(zhàn)性的,但是創(chuàng)建業(yè)界第一個外掛級系統(tǒng)是遇到了完全意想不到的事情,需要在硬件和軟件方面做大量的工作。不幸的是,這種情況可能發(fā)生在橡樹嶺國家實驗室的Frontier超級計算機上,它幾乎不能在沒有眾多硬件故障的情況下持續(xù)一天。
ORNL的Frontier是業(yè)界首個設計用于提供高達1.685 FP64 ExaFLOPS峰值性能的系統(tǒng),使用AMD的64核EPYC Trento處理器、Instinct MI250X計算GPU和HPE的Slingshot互連,功率為21兆瓦。HPE構建了該系統(tǒng),并使用了為擴展應用設計的Cray EX(在新標簽中打開)架構,主要用于超高速超級計算機。
雖然從紙面上看,F(xiàn)rontier超級計算機看起來特別好,而且機器系統(tǒng)的硬件部分已經(jīng)交付,但似乎硬件方面的問題一直追著機器上線,并提供給需要大約1 FP64 ExaFLOPS性能的研究人員。
"橡樹嶺領導力計算設施(OLCF)的項目主管Justin Whitt在接受InsideHPC(在新標簽中打開)采訪時說:"我們正在解決硬件方面的問題,確保我們了解(它們是什么)。"在這種規(guī)模的情況下,你將會出現(xiàn)故障。這種規(guī)模的系統(tǒng)的平均故障間隔時間是幾小時,而不是幾天。"
關于Frontier的潛在硬件故障的傳言已經(jīng)流傳了很久。根據(jù)InsideHPC(在新標簽中打開)的另一篇報道,一些人說該系統(tǒng)的Slingshot互連出現(xiàn)了問題。此外,其他人表示,AMD的Instinct MI250X計算GPU今年并不像預期那樣可靠。請記住,擁有更多流處理器和高時鐘的X版本只向特定客戶提供。
Whitt先生沒有證實系統(tǒng)在Instinct或Slingshot方面遇到任何特別的問題,但他壓根兒就沒有說過機器遭受到眾多的硬件問題。
"很多挑戰(zhàn)都集中在這些[GPU]上,但這并不是我們看到的大多數(shù)挑戰(zhàn),"OLCF的負責人說。"在零部件故障的常見罪魁禍首中,這是一個相當好的分布,它是一個很大的組成部分。我不認為在這一點上,我們對AMD的產(chǎn)品有很多擔憂。"
橡樹嶺國家實驗室的Frontier超級計算機到目前為止還不是唯一使用HPE的Cray EX架構與Slingshot互連、AMD的EPYC CPU和AMD的Instinct計算GPU的系統(tǒng)。例如,芬蘭的Lumi超級計算機(Cray EX、EPYC Milan、Instinct MI250X計算GPU)提供550 PetaFLOPS的峰值性能,被官方列為世界上第三大最強大的超級計算機。也許,問題是有效的,該機器的規(guī)??偣彩褂昧?000萬個零件。
鑒于仍未正式部署,最初承諾在2022年上線的 "前沿 "超級計算機是否能在2023年開始供研究人員使用,只有時間才能證明。