導(dǎo)讀:高性能計算(HPC)是企業(yè)獲得創(chuàng)新能力、洞察力、商業(yè)競爭力的動力,是這個數(shù)字時代不可或缺的資源。例如,采用高性能計算(HPC)運(yùn)行的復(fù)雜計算機(jī)模型來測量和分析近幾十年天氣變化,幫助改善預(yù)測并模擬氣候變化和其他破壞性事件(如颶風(fēng))的影響。
高性能計算(HPC)是企業(yè)獲得創(chuàng)新能力、洞察力、商業(yè)競爭力的動力,是這個數(shù)字時代不可或缺的資源。例如,采用高性能計算(HPC)運(yùn)行的復(fù)雜計算機(jī)模型來測量和分析近幾十年天氣變化,幫助改善預(yù)測并模擬氣候變化和其他破壞性事件(如颶風(fēng))的影響。
而在一系列的制造、工程和工業(yè)環(huán)境中,采用高性能計算(HPC)技術(shù)可以縮短金融交易時間,加強(qiáng)合規(guī)性、風(fēng)險檢測、數(shù)據(jù)分析,甚至加快原型設(shè)計。
高性能計算(HPC)非常適合計算、數(shù)字和數(shù)據(jù)密集型任務(wù),原來主要應(yīng)用于大型企業(yè)、政府部署、研究機(jī)構(gòu)的少數(shù)領(lǐng)域。但云計算一直是IT變革的催化劑。它提供了超級計算能力,并為規(guī)模較小的實(shí)體提供了大量的計算能力;推動‘云優(yōu)先'的思想。當(dāng)然,這與更廣泛的市場數(shù)字化密切相關(guān),越來越多的業(yè)務(wù)應(yīng)用程序從內(nèi)部數(shù)據(jù)中心轉(zhuǎn)移出來,以提高靈活性,并降低成本。
當(dāng)今的發(fā)展
如今,超大規(guī)模的云計算供應(yīng)商占據(jù)了大部分的高性能計算(HPC)市場,提供了更高的彈性以及幾乎無限的計算可擴(kuò)展性。在以往,超級計算數(shù)據(jù)中心的技術(shù)更新通常需要兩年或更長時間。該過程包括審查現(xiàn)有技術(shù),然后進(jìn)行試驗(yàn)或概念驗(yàn)證階段,并廣泛公布征求建議書(RFP)要求。毫不奇怪的是,這些設(shè)施中通常部署了Cray、IBM、HPE、NEC等公司的服務(wù)器。
但是,超大規(guī)模云計算構(gòu)建者可以將一些快速網(wǎng)絡(luò)與一系列GPU和一些復(fù)雜的中間件有效地融合在一起,以便管理模擬和建模工作負(fù)載,然后稱之為真正的高性能計算(HPC),這種想法是錯誤的。該模型不適合高性能計算(HPC)。這些應(yīng)用程序復(fù)雜而密集,并且要求苛刻。雖然對于某些高性能計算(HPC)而言,通常是以最低成本獲得最多計算能力,但其成功交付以及高性能計算(HPC)應(yīng)用程序的最佳運(yùn)行,在很大程度上依賴于性能和速度。
大型云計算提供商通過大量使用自己的服務(wù)器來響應(yīng)對高性能計算(HPC)集群的需求。通過這些硬件可以提高性能,而服務(wù)器的CPU則可以通過商用GPU進(jìn)行擴(kuò)充,以用于更大規(guī)模的高性能計算(HPC)應(yīng)用。但這并不是最佳選擇。依靠“大量計算”并不能簡單地構(gòu)建一個出色的高性能計算(HPC)環(huán)境,即在最佳條件下部署應(yīng)用程序并盡可能高效地運(yùn)行。要實(shí)現(xiàn)這一目標(biāo),企業(yè)需要一個定制的云環(huán)境,其中應(yīng)用程序優(yōu)先提供真正的高性能計算(HPC)。
最近,研究機(jī)構(gòu)在Amazon Web Services、Microsoft Azure、私有的高性能計算(HPC)云平臺上實(shí)施了相同高性能計算(HPC)配置的OpenFOAM壓力測試,以更好地了解性能影響。為了反映合理的中型高性能計算(HPC)工作量,元素數(shù)量從20萬個增加到4160萬個。
針對每個高性能計算(HPC)云平臺配置嘗試了五次運(yùn)行,揭示了在使用少量核心時,在AWS云平臺中的擴(kuò)展結(jié)果可重復(fù)性非常好,但隨著CPU數(shù)量的增加,可變性也隨之增加。并會產(chǎn)生負(fù)面影響。而采用物理服務(wù)器并沒有發(fā)生這種情況,全面加快了30%。在Microsoft Azure云平臺上擴(kuò)展OpenFOAM模擬也存在一些值得注意的問題。
超大規(guī)模公共云是廣泛的企業(yè)、辦公室和云平臺支持的應(yīng)用程序和工作負(fù)載的理想計算資源,提供廣泛的可擴(kuò)展性、靈活的訪問點(diǎn)、定價計劃,以適應(yīng)任何部署和時間表。但是它們依賴于虛擬化的服務(wù)器,這些服務(wù)器通常是跨越國界的,并且通常遠(yuǎn)離存儲設(shè)備。在考慮位置時,還要做出關(guān)于最佳地理位置的戰(zhàn)略決策。例如,一些地點(diǎn)還可以采用可再生能源,這可能對組織的利潤及其環(huán)境足跡產(chǎn)生巨大影響。
而且,對于要求更高的高性能計算(HPC)用戶,尤其是那些希望在近期內(nèi)接受定制機(jī)器和深度學(xué)習(xí)應(yīng)用程序的用戶,或者為了從原型階段過渡到生產(chǎn)產(chǎn)品的人工智能初創(chuàng)公司需要對此重新思考。不幸的是,定制配置機(jī)器以適應(yīng)他們自己的應(yīng)用程序也違背了超大規(guī)模的原則。公共云需要高度的同質(zhì)性,以便能夠大規(guī)模地運(yùn)營基礎(chǔ)設(shè)施。對于運(yùn)行定制或高度自定義應(yīng)用程序的高性能計算(HPC)用戶,這些應(yīng)用程序需要高性能計算(HPC)工程師進(jìn)行精確配置或增加支持時間以優(yōu)化其部署,用戶將無法在超大規(guī)模云平臺中找到它。對于這些專業(yè)應(yīng)用,用戶需要采用“量身定制”服務(wù)。
Hyperion公司報告稱,10%的高性能計算(HPC)現(xiàn)在在云平臺中實(shí)施。隨著企業(yè)越來越依賴高性能計算(HPC)輸出,他們必須尋找一個真正優(yōu)化的環(huán)境,在這個環(huán)境中,高性能計算(HPC)集群能夠以可重復(fù)的方式部署,并且電力和成本是可持續(xù)的,并且不會有經(jīng)濟(jì)損失。曾幾何時,“優(yōu)化”意味著使用作業(yè)調(diào)度程序?qū)⒓悍旁谝粋€地方。而如今,每個復(fù)制的部署都必須記錄,并隨著時間的推移而實(shí)施自動化,以保持性能完整性。
最終,在云中運(yùn)行復(fù)雜的高性能計算(HPC)應(yīng)用程序的潛力是巨大的,但如果人們真正獲得好處,必須面對并解決性能、速度、成本的基本挑戰(zhàn)。