當(dāng)高能物理遇上數(shù)字技術(shù):華為超融合以太網(wǎng)絡(luò)賦能科學(xué)探索

(計育青/文)中科院高能物理研究所,是國際領(lǐng)先的高能物理研究基地之一,擁有一系列世界領(lǐng)先的大科學(xué)裝置和重要實驗。每時每刻,都有海量的科研數(shù)據(jù)從全國各地的試驗裝置生成,傳輸、匯聚到計算中心進行存儲、管理,并由研究人員利用科學(xué)軟件進行深入分析和利用。要承擔(dān)如此重任,底層的網(wǎng)絡(luò)和算力基礎(chǔ)設(shè)施必須滿足極為苛刻的要求。

為了適應(yīng)未來的網(wǎng)絡(luò)和算力需求,高能物理所與華為開展了聯(lián)合創(chuàng)新,利用華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric構(gòu)建起了由近十萬顆CPU核及數(shù)百張GPU卡構(gòu)成的跨地域的高性能計算系統(tǒng),為研究工作提供了完善的ICT基礎(chǔ)設(shè)施。

科研機構(gòu)面臨網(wǎng)絡(luò)難題

為滿足科研需求,高能物理所在北京、深圳、江門、稻城、東莞等地部署了由近十萬個CPU核心構(gòu)成的算力資源,以及百PB級的數(shù)據(jù)存儲資源。高能物理所的ICT系統(tǒng)有三個特點,即多源異構(gòu)、分布式部署和網(wǎng)絡(luò)環(huán)境復(fù)雜。多源異構(gòu)是因為計算任務(wù)各不相同,使得研究人員使用的服務(wù)器來源、處理器種類及軟件各不相同。分布式部署是因為高能物理實驗設(shè)施分布在全國各地,其算力需要融合來自于國內(nèi)外合作單位的計算中心。在網(wǎng)絡(luò)架構(gòu)方面,不但要解決計算中心內(nèi)部高效數(shù)據(jù)訪問及異地數(shù)據(jù)交換問題,還要保障大型實驗裝置與高能物理所之間的實時高速連接。

由于高能物理所ICT應(yīng)用系統(tǒng)的特殊性,在規(guī)劃網(wǎng)絡(luò)系統(tǒng)時面臨兩個難題:一是科研數(shù)據(jù)失之毫厘差之千里,數(shù)據(jù)傳輸必須滿足零丟包、超低延時;二是網(wǎng)絡(luò)的管理和運維需簡單化和智能化,減少人工維護壓力。借助華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0 解決方案,高能物理所升級了其底層網(wǎng)絡(luò)通訊系統(tǒng),完全實現(xiàn)了預(yù)定目標(biāo)。

CloudEngine助力國家大科學(xué)裝置數(shù)字化升級

在廣東東莞,坐落著一座國家重大科技基礎(chǔ)設(shè)施——中國散裂中子源(CSNS),這是世界四大脈沖散裂中子源之一。在2018年CSNS建成后,隨著大量研究人員和課題的入駐,實驗過程產(chǎn)生了大量的科學(xué)數(shù)據(jù),為高效支持依托CSNS的科研活動,高能物理所在東莞部署建設(shè)了大科學(xué)計算中心。

東莞大科學(xué)計算中心在網(wǎng)絡(luò)中全面采用了華為CloudEngine系列交換機,確保數(shù)據(jù)無損傳遞;在算力領(lǐng)域,運用華為鯤鵬計算平臺和超融合以太智能無損數(shù)據(jù)中心網(wǎng)絡(luò)形成了計算、存儲、網(wǎng)絡(luò)統(tǒng)一架構(gòu)。由于華為CloudEngine交換機可以對數(shù)據(jù)進行一定整合后再做轉(zhuǎn)發(fā),因此能夠有效減輕服務(wù)器的負(fù)擔(dān),整體運行效率比傳統(tǒng)以太網(wǎng)提升31%。

實測發(fā)現(xiàn),利用華為超融合以太方案替換原有計算專用網(wǎng)絡(luò)之后,整體性能基本持平,帶寬增加了一倍,建網(wǎng)和運維成本總體減少23%。利用超融合以太方案建設(shè)存儲網(wǎng)絡(luò)系統(tǒng)之后,切實做到了0丟包,同時時延縮小了40%,投資成本節(jié)省了25%。

CloudFabric賦能基礎(chǔ)科學(xué)創(chuàng)新

在北京懷柔科學(xué)城,高能同步輻射光源(HEPS)正在建設(shè)當(dāng)中。該裝置提供了一種更加清晰、準(zhǔn)確地觀察微觀世界的手段,在物理、材料、化工、生命等學(xué)科領(lǐng)域有非常廣泛的應(yīng)用。HEPS實驗過程中會產(chǎn)生海量的數(shù)據(jù),需要先進的高性能計算集群和存儲集群來處理、保存,同時還要借助日新月異的AI技術(shù)來輔助分析數(shù)據(jù),因此新的網(wǎng)絡(luò)和算力基礎(chǔ)設(shè)施也必須有能力支撐大規(guī)模AI運算。為此高能物理所與華為合作,探索利用華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric方案來建設(shè)網(wǎng)絡(luò)體系和計算集群。

目前的規(guī)劃是利用CloudEngine系列數(shù)據(jù)中心交換機來構(gòu)建分布式網(wǎng)絡(luò),后續(xù)將結(jié)合華為AI集群方案推進人工智能開放平臺建設(shè),并探索適合高能物理研究發(fā)展方向的新興高性能網(wǎng)絡(luò)和計算架構(gòu)。

自從華為數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric解決方案上市以來,已經(jīng)在多個行業(yè)的21000多個數(shù)據(jù)中心投入了應(yīng)用。中科院高能物理所與華為的多次合作,讓CloudFabric得以在全球頂尖科研機構(gòu)中大顯身手,也為中國基礎(chǔ)科學(xué)研究的數(shù)字化、智能化升級探索出了一條前進之路。高能物理所計算中心主任齊法制表示,中科院高能物理所計算中心期待能和華為一道,在高性能計算領(lǐng)域取得更多的成果。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-12-15
當(dāng)高能物理遇上數(shù)字技術(shù):華為超融合以太網(wǎng)絡(luò)賦能科學(xué)探索
中科院高能物理研究所,是國際領(lǐng)先的高能物理研究基地之一,擁有一系列世界領(lǐng)先的大科學(xué)裝置和重要實驗。每時每刻,都有海量的科研數(shù)據(jù)從全國各地的試驗裝置生成,傳輸、匯

長按掃碼 閱讀全文