廈門高校創(chuàng)新實驗室智算300節(jié)點成功遷移到元腦KOS操作系統(tǒng)

隨著CentOS停更,用戶無法獲得安全補丁和漏洞修復(fù),導(dǎo)致系統(tǒng)安全風(fēng)險大幅增加、穩(wěn)定性下降。對于依賴特定軟件環(huán)境的高校及科研機構(gòu),還可能出現(xiàn)系統(tǒng)與應(yīng)用軟件兼容性問題,影響科研項目進度并增加額外適配成本。

面對這一問題,廈門高校創(chuàng)新實驗室(簡稱實驗室)將OS遷移至龍蜥商業(yè)版服務(wù)器操作系統(tǒng)元腦KOS V5.8,方便用戶使用各類業(yè)務(wù)軟件,促進AI+Science科研創(chuàng)新進程。KOS團隊通過提供定制化鏡像,預(yù)置Lustre、Slurm等科學(xué)計算場景軟件包,快速適配支持120+科學(xué)計算應(yīng)用軟件,同時研制配套集群部署腳本,實現(xiàn)了7天高效遷移300臺節(jié)點。

軟硬件環(huán)境復(fù)雜,操作系統(tǒng)遷移面臨挑戰(zhàn)

作為國內(nèi)領(lǐng)先的能源材料領(lǐng)域“科技加速器”與“產(chǎn)業(yè)發(fā)動機”,實驗室面向先進材料、氫能、半導(dǎo)體、未來顯示技術(shù)等7大領(lǐng)域方向,打造支撐AI for Science科研新范式的智算平臺。硬件方面配置了數(shù)百個異構(gòu)計算節(jié)點,多個胖節(jié)點及管理節(jié)點,為大規(guī)??茖W(xué)計算、模擬仿真、數(shù)據(jù)處理和分析存儲等需求提供了有力的支撐;軟件方面,為了支撐能源、信息、制造等領(lǐng)域科研項目,智算平臺部署120+款多學(xué)科、跨單位交叉業(yè)務(wù)軟件,并且需要不斷進行軟件升級,以滿足日益增長的計算需求。

此前,中心全套業(yè)務(wù)系統(tǒng)運行在CentOS 7.5之上,隨著CentOS 7停更,導(dǎo)致一些業(yè)務(wù)軟件無法使用,并且系統(tǒng)存在安全隱患,迫切需要對原有操作系統(tǒng)進行遷移。面對如此龐大復(fù)雜的系統(tǒng)環(huán)境,操作系統(tǒng)遷移可謂是一項挑戰(zhàn)。

首先,新系統(tǒng)需要與原有軟硬件環(huán)境兼容適配,確保業(yè)務(wù)系統(tǒng)在遷移后能夠穩(wěn)定運行。在實驗室中存在大量應(yīng)用軟件,如有限元素法軟件abaqus、經(jīng)典分子動力學(xué)模擬軟件Lammps、分子動力學(xué)模擬程序包GROMACS、DFT計算和分子動力學(xué)模擬軟件CP2K等,新操作系統(tǒng)要適配上述業(yè)務(wù)軟件,保障運行可靠性與穩(wěn)定性。

其次,操作系統(tǒng)遷移要盡量減少對現(xiàn)有業(yè)務(wù)影響,這就意味著遷移工作必須迅速高效。實驗室服務(wù)于廈門市及福建省眾多高校、科研機構(gòu)與企業(yè)的重大課題與產(chǎn)學(xué)研合作項目,操作系統(tǒng)切換需要盡可能地平滑穩(wěn)定、用戶無感知,避免影響當(dāng)前集群的對外服務(wù)能力。

最后,為了應(yīng)對高速增長的大規(guī)??茖W(xué)計算需求,實驗室需要在操作系統(tǒng)切換過程中,對現(xiàn)有IB卡驅(qū)動、Slurm版本及關(guān)鍵部件驅(qū)動進行同步優(yōu)化升級,新操作系統(tǒng)要能夠支持最新驅(qū)動版本。

“三步走”實現(xiàn)7天遷移300節(jié)點,樹立行業(yè)典范

浪潮信息為實驗室量身定制了從CentOS到KOS的遷移方案,摸排用戶環(huán)境的硬件配置、軟件環(huán)境、數(shù)據(jù)規(guī)模等,充分評估遷移可行性并識別風(fēng)險,通過“三步走”穩(wěn)健推進,實現(xiàn)操作系統(tǒng)平滑遷移。

廈門高校創(chuàng)新實驗室智算300節(jié)點成功遷移到元腦KOS操作系統(tǒng)

從CentOS到KOS遷移方案

■ 首先,計算節(jié)點與管理節(jié)點兼容性測試。KOS團隊在計算節(jié)點集群中剝離出部分節(jié)點,驗證計算節(jié)點更換KOS后能夠正常訪問、調(diào)用存儲節(jié)點上的業(yè)務(wù)軟件;同時選取與管理節(jié)點配置一致的機器,作為新集群的管理節(jié)點,部署集群管理業(yè)務(wù)、進行兼容性測試。

■ 其次,管理節(jié)點數(shù)據(jù)遷移。KOS團隊利用剝離出來的機器搭建新集群,并將舊集群管理節(jié)點數(shù)據(jù)遷移到新集群中。此時新舊集群并存,舊集群對外提供服務(wù),新集群進行業(yè)務(wù)測試。

■ 最后,計算節(jié)點分批升級。新集群測試完成后,KOS團隊根據(jù)當(dāng)前用戶任務(wù)情況,分批次添加計算節(jié)點,直到新集群中的計算節(jié)點占到總集群的60%(剩余40%繼續(xù)在舊集群中提供服務(wù)),且用戶作業(yè)不受影響,則啟用新集群對外提供服務(wù),同時停止舊集群。最后,剩余40%計算節(jié)點加入新集群,完成全部升級。

廈門高校創(chuàng)新實驗室智算300節(jié)點成功遷移到元腦KOS操作系統(tǒng)

“三步走”替換示意圖

此次升級,不僅解決了 CentOS 停更所帶來的生態(tài)缺失、業(yè)務(wù)中斷隱患,也為用戶帶來了更佳體驗。

兼容更優(yōu):KOS高度兼容實驗室異構(gòu)化硬件平臺,以及全部存儲軟件與應(yīng)用軟件,確保了用戶操作習(xí)慣無縫銜接,同時針對計算節(jié)點、管理節(jié)點及業(yè)務(wù)軟件進行全面的版本優(yōu)化升級,為用戶提供更加流暢、高效的科研環(huán)境。目前KOS已與1200款硬件板卡、250款服務(wù)器整機、400款數(shù)據(jù)庫及中間件實現(xiàn)兼容適配。

效率更高:KOS進行了定制化鏡像開發(fā),將GPU驅(qū)動、IB卡驅(qū)動、Lustre客戶端、Slurm、OpenLDAP等核心軟件升級為最優(yōu)版本并集成到鏡像中,以“開箱即用”的模式完成升級替換。

絲滑無感:遷移過程采取了“小步快跑”策略,通過細致入微的集群業(yè)務(wù)摸排評估,以及小批量節(jié)點遷移、測試、驗證,確保CentOS平滑穩(wěn)定遷移至KOS,全過程風(fēng)險可控,在最短的空窗期內(nèi)完成新舊集群服務(wù)交割,用戶無感知持續(xù)進行科研工作。

實驗室負責(zé)人表示:“在CentOS停止維護的緊迫形勢下,KOS為我們提供了及時且高效的解決方案。KOS的穩(wěn)定、可靠與高度兼容性,讓用戶可以更簡單便利地編譯和安裝大部分最新版本的計算軟件,無需再應(yīng)對各種版本過低導(dǎo)致的兼容問題。對于有興趣追求性能或者探索新特性的用戶,也有諸如XPMEM等新功能可供使用。有了KOS的幫助,讓我們對未來的科研創(chuàng)新充滿信心。”

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )