交付性能超中科院預(yù)期3倍,聯(lián)想HPC是如何做到的?

摘要:對(duì)于現(xiàn)代科技來(lái)說(shuō),計(jì)算力的極限決定著人類對(duì)世界認(rèn)知的邊界,所以HPC(高性能計(jì)算集群)自然而然成了各國(guó)科技競(jìng)爭(zhēng)的戰(zhàn)略制高點(diǎn)。如同在巔峰之上前行,每進(jìn)一步都要付出更多體能,在摩爾定律依然失效的今天,HP

對(duì)于現(xiàn)代科技來(lái)說(shuō),計(jì)算力的極限決定著人類對(duì)世界認(rèn)知的邊界,所以HPC(高性能計(jì)算集群)自然而然成了各國(guó)科技競(jìng)爭(zhēng)的戰(zhàn)略制高點(diǎn)。如同在巔峰之上前行,每進(jìn)一步都要付出更多體能,在摩爾定律依然失效的今天,HPC在不斷提升性能的同時(shí)還要兼顧功耗,更是加大了迭代升級(jí)的技術(shù)難度。

在HPC領(lǐng)域卻發(fā)生了一件新鮮事,中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院原本計(jì)劃重建的峰值性能超過(guò)350Tflops即可,但聯(lián)想HPC在預(yù)算范圍內(nèi),最終交付計(jì)算峰值卻達(dá)到了1081Tflops,交付性能達(dá)到了用戶預(yù)期的三倍還多,這其中有什么奧秘和訣竅?帶著這些問題,《老尚看科技》采訪了聯(lián)想HPC業(yè)務(wù)部門決策者和技術(shù)專家。

聯(lián)想HPC為何能夠超出客戶性能預(yù)期3倍?

底層基礎(chǔ)研究是現(xiàn)代科學(xué)發(fā)展的根基所在,而數(shù)學(xué)被譽(yù)為自然科學(xué)之母。中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院成于1998年,作為中國(guó)數(shù)學(xué)和系統(tǒng)科學(xué)研究最頂尖的研究機(jī)構(gòu),下轄數(shù)學(xué)、應(yīng)用數(shù)學(xué)、系統(tǒng)科學(xué)、計(jì)算數(shù)學(xué)與科學(xué)工程計(jì)算四大研究所,以及9個(gè)國(guó)家重點(diǎn)實(shí)驗(yàn)室和十余個(gè)研究中心,自成立以來(lái)成果豐碩、享譽(yù)全球。隨著科學(xué)技術(shù)高速發(fā)展,中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院對(duì)于用超算來(lái)進(jìn)行科研驗(yàn)證和前沿探索,都抱有很高的期待,所以下定決心要翻新落伍的HPC系統(tǒng)。

但跟很多傳統(tǒng)院校和科研機(jī)構(gòu)一樣,中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院要更新HPC系統(tǒng),面臨著老機(jī)房面積局促、地板稱重有限、供電功率受限等現(xiàn)實(shí)因素的困擾,所以中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院向HPC供應(yīng)商提出了預(yù)期的目標(biāo):希望能夠提供的計(jì)算節(jié)點(diǎn)數(shù)超過(guò)350Tfopls,并且新HPC系統(tǒng)的整體功耗不超過(guò)220KW。

一般而言,HPC從立項(xiàng)、審批、招標(biāo),再到部署、驗(yàn)收、投入使用,動(dòng)輒要數(shù)個(gè)月甚至更長(zhǎng)時(shí)間,而英特爾CPU處理器的更迭周期現(xiàn)在越來(lái)越短,這就讓很多HPC項(xiàng)目存在剛開始硬件建設(shè)就已經(jīng)落后的行業(yè)難題。

但聯(lián)想最終交付給中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院的HPC新系統(tǒng)卻打破了業(yè)界常規(guī),在符合預(yù)算的前提下,聯(lián)想為中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院改造的全新HPC系統(tǒng)峰值計(jì)算性能達(dá)到了1081 Tflops!

據(jù)聯(lián)想首席科學(xué)家祝明發(fā)介紹,聯(lián)想HPC之所以能實(shí)現(xiàn)客戶計(jì)算峰值預(yù)期三倍,主要是基于如下原因:

第一,聯(lián)想從項(xiàng)目規(guī)劃設(shè)計(jì)之初,就將英特爾處理器更新周期考慮在內(nèi),聯(lián)想與英特爾積極合作,為中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院在項(xiàng)目早期就提前測(cè)試了當(dāng)時(shí)未正式發(fā)布的新一代英特爾至強(qiáng)可擴(kuò)展處理器(Xeon SP,即開發(fā)代號(hào)為Skylake-SP的新處理器)及新一代Purley平臺(tái),后者相比至強(qiáng)E5-2600 V4處理器顯著的性能提升,也為超出客戶預(yù)期3倍的計(jì)算峰值打下了堅(jiān)實(shí)基礎(chǔ)。另外,在HPC系統(tǒng)中規(guī)格超前的100Gbps EDR InfiniBand網(wǎng)絡(luò),也為新HPC系統(tǒng)的性能提升提供了強(qiáng)力支持。

第二,因地制宜,針對(duì)老機(jī)房空間狹小、承重受限的客觀條件,聯(lián)想在拆除原有機(jī)房的HPC系統(tǒng)之后,重新設(shè)計(jì)了機(jī)房的空間布局、承重、空調(diào)和散熱制冷,同時(shí),機(jī)柜采用專門的承重架專門加固,確保機(jī)房機(jī)柜的穩(wěn)定可靠安放——在重新設(shè)計(jì)機(jī)房之后,聯(lián)想為這一機(jī)房裝入了多出一倍的機(jī)柜數(shù)量:新機(jī)房放入了408個(gè)HPC計(jì)算節(jié)點(diǎn),1個(gè)x3650 M5管理節(jié)點(diǎn),1個(gè)x3650 M5數(shù)據(jù)導(dǎo)入節(jié)點(diǎn),1個(gè)胖節(jié)點(diǎn)x3850 X6,5臺(tái)GPU節(jié)點(diǎn),4個(gè)KNL計(jì)算節(jié)點(diǎn),8個(gè)x3650 M5 大數(shù)據(jù)節(jié)點(diǎn),15臺(tái)交換機(jī),1套360TB存儲(chǔ)系統(tǒng)以及LiCO管理平臺(tái)。更高的集成密度,也是性能超預(yù)期的一個(gè)重要因素。

第三,為了解決部署周期長(zhǎng),可能會(huì)帶來(lái)的性能落伍風(fēng)險(xiǎn),聯(lián)想在這個(gè)HPC項(xiàng)目中采用了HPC系統(tǒng)整機(jī)柜交付的方式,在工廠進(jìn)行服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等設(shè)備的上架、預(yù)裝,直接將機(jī)柜推進(jìn)機(jī)房,節(jié)省了在機(jī)房?jī)?nèi)開箱、上架服務(wù)器、存儲(chǔ)等設(shè)備的時(shí)間和空間。短周期也為性能領(lǐng)先提供了堅(jiān)實(shí)的保證。

超算需求的多樣化,要求HPC也要與時(shí)俱進(jìn)

HPC之前被廣泛應(yīng)用于能源、氣象、醫(yī)療、航天等領(lǐng)域,但隨著人工智能、大數(shù)據(jù)時(shí)代的來(lái)臨,用戶對(duì)超算的需求也在變得越來(lái)越多樣性,很多用戶希望超算能夠在深度學(xué)習(xí)等領(lǐng)域中發(fā)揮更大的作用,以便于他們借助超算超強(qiáng)的計(jì)算力來(lái)做算法訓(xùn)練或者科研驗(yàn)證。

面對(duì)客戶對(duì)超算越來(lái)越多樣和多變的需求,HPC廠商需要拿出切實(shí)可行的解決方案。在中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院新HPC項(xiàng)目中,聯(lián)想除了常規(guī)的計(jì)算節(jié)點(diǎn)之外,還在這套新HPC系統(tǒng)中增加了NVIDIA GPU、英特爾Xeon Phi在內(nèi)的異構(gòu)計(jì)算平臺(tái),以及基于聯(lián)想LEAP的大數(shù)據(jù)分析測(cè)試平臺(tái)(8個(gè)x3650 M5 大數(shù)據(jù)節(jié)點(diǎn))、LiCO集群調(diào)度和管理系統(tǒng)。

聯(lián)想HPC&AI資深架構(gòu)師郝常杰表示,當(dāng)有了透明機(jī)制的LiCO系統(tǒng)之后,科研用戶不需要在精通本專業(yè)之外,還要花大塊時(shí)間來(lái)研究如何使用異構(gòu)計(jì)算資源,LiCO平臺(tái)就像一個(gè)資源調(diào)配中心,你需要什么類型的計(jì)算資源,只需要向系統(tǒng)提出申請(qǐng)即可。以往科研用戶在用HPC做運(yùn)算時(shí),如果在預(yù)計(jì)時(shí)間內(nèi)沒能完成,科研人員時(shí)常要面臨是繼續(xù)無(wú)限期的等待,還是前功盡棄重新來(lái)過(guò),但有了LiCO系統(tǒng)之后,科研人員能夠?qū)PC的進(jìn)程進(jìn)行更精細(xì)的監(jiān)控,哪個(gè)環(huán)節(jié)在運(yùn)算時(shí)出了問題會(huì)一目了然,這大大提升了HPC的實(shí)際運(yùn)行效率。

受到傳輸材料和芯片制造工藝限制,摩爾定律已經(jīng)逐步失效,所以HPC進(jìn)一步提升性能、降低功耗,需要更多的技術(shù)創(chuàng)新。在中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院新HPC項(xiàng)目初期,聯(lián)想提供的基于“飛虎”系統(tǒng)的HPC解決方案,可以將數(shù)據(jù)中心機(jī)房的PUE值降低至1.2左右,這遠(yuǎn)遠(yuǎn)低于當(dāng)前國(guó)內(nèi)數(shù)據(jù)中心普遍的PUE值2.0-2.2的水平。這種技術(shù)上的領(lǐng)先,是用戶之所以選擇和信任聯(lián)想HPC的根本原因之一。

中國(guó)從超算大國(guó),正在走向超算強(qiáng)國(guó)

HPC要想物盡其用,硬件、軟件、應(yīng)用、生態(tài)必須形成有效的協(xié)同。中國(guó)以往在超算硬件上取得了長(zhǎng)足進(jìn)步,銀河2A、神威天湖之光等HPC集群在全球TOP500上也先后奪冠。聯(lián)想為代表的中國(guó)超算力量,在世界HPC市場(chǎng)份額中也不斷攀升,聯(lián)想曾獲得過(guò)HPC廠商全球第二的殊榮。但與歐美等超算強(qiáng)國(guó)相比,中國(guó)在HPC應(yīng)用和生態(tài)層面還需要不斷補(bǔ)強(qiáng),才能形成更強(qiáng)的綜合競(jìng)爭(zhēng)力。

隨著大數(shù)據(jù)、人工智能等技術(shù)高速發(fā)展,人們希望超算能夠滿足更多樣和多變的計(jì)算需求,這也為中國(guó)超算彎道超車提供了寶貴的機(jī)遇。從中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院新HPC項(xiàng)目中,我們看到了聯(lián)想由超算硬件提供商,已經(jīng)逐步演進(jìn)為智能超算平臺(tái)提供者和智能超算生態(tài)建設(shè)者。

祝明發(fā)在采訪時(shí)表示,超算是一個(gè)基于信任的業(yè)務(wù),未來(lái)拼的是產(chǎn)品、技術(shù)和服務(wù)硬實(shí)力,靠打價(jià)格戰(zhàn)或者營(yíng)銷術(shù)是無(wú)法長(zhǎng)期在超算領(lǐng)域立足的。聯(lián)想希望能夠聯(lián)合更多中國(guó)超算力量,共建智能超算健康生態(tài),為中國(guó)各行各業(yè)的創(chuàng)新者,提供了綠色、經(jīng)濟(jì)、高效且快速發(fā)展的計(jì)算能力和超算服務(wù),讓中國(guó)從超算大國(guó)真正成為超算強(qiáng)國(guó),讓超算成為中國(guó)創(chuàng)新和中國(guó)智造的技術(shù)基石。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-10-21
交付性能超中科院預(yù)期3倍,聯(lián)想HPC是如何做到的?
摘要:對(duì)于現(xiàn)代科技來(lái)說(shuō),計(jì)算力的極限決定著人類對(duì)世界認(rèn)知的邊界,所以HPC(高性能計(jì)算集群)自然而然成了各國(guó)科技競(jìng)爭(zhēng)的戰(zhàn)略制高點(diǎn)。

長(zhǎng)按掃碼 閱讀全文