中國(guó)電信劉昊:算網(wǎng)協(xié)同,開放光網(wǎng)絡(luò)助力智算中心高質(zhì)量發(fā)展

5月23日消息(水易)今日,CIOE中國(guó)光博會(huì)與C114通信網(wǎng)聯(lián)合舉辦“2024中國(guó)光通信高質(zhì)量發(fā)展論壇”第四場(chǎng)研討會(huì)——“AI時(shí)代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢(shì)”正式上線。會(huì)議邀請(qǐng)電信運(yùn)營(yíng)商、互聯(lián)網(wǎng)服務(wù)商、云計(jì)算廠商、模塊芯片商、科研院所、業(yè)內(nèi)專家,深入探討光互聯(lián)和全光交換的應(yīng)用及其面臨的機(jī)遇和挑戰(zhàn)。

中國(guó)電信研究院高級(jí)工程師劉昊表示,AI大模型的出現(xiàn),驅(qū)動(dòng)新型算力基礎(chǔ)設(shè)施建設(shè)不斷發(fā)展,傳統(tǒng)數(shù)據(jù)中心加速向智算中心轉(zhuǎn)型,對(duì)網(wǎng)絡(luò)的規(guī)模、時(shí)延、帶寬和可靠性等方面提出新的發(fā)展需求與挑戰(zhàn)。

數(shù)據(jù)顯示,截至2023年底,我國(guó)智能算力規(guī)模突破230EFLOPS,全面超過通用算力,并且差距逐漸拉開。中國(guó)電信積極響應(yīng)國(guó)家政策,在全國(guó)范圍內(nèi)部署智算中心集群,推動(dòng)智算中心高質(zhì)量發(fā)展。

智算中心內(nèi)部光互連

中國(guó)電信集團(tuán)科技委主任韋樂平曾表示,以ChatGPT為代表的AI大模型近中期主要影響DCN網(wǎng)絡(luò)。DCN顧名思義就是數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò),智算中心內(nèi)部網(wǎng)絡(luò)也包括其中,AI大模型訓(xùn)練需要DCN具備大規(guī)模、高帶寬、低時(shí)延、零丟包等能力。

劉昊介紹,AI大模型訓(xùn)練參數(shù)已達(dá)到千億-萬(wàn)億的級(jí)別,需要千/萬(wàn)卡GPU集群來(lái)滿足計(jì)算任務(wù),大規(guī)模組網(wǎng)成為剛需。同時(shí),GPU網(wǎng)卡之間需要傳輸大量參數(shù)、梯度信息,高帶寬傳輸能力不可或缺。對(duì)于實(shí)時(shí)性要求高的應(yīng)用,難以預(yù)測(cè)的動(dòng)態(tài)時(shí)延會(huì)對(duì)網(wǎng)絡(luò)性能造成嚴(yán)重影響,需重點(diǎn)關(guān)注時(shí)延和抖動(dòng)指標(biāo)。更為重要的是,千分之一的丟包率,將導(dǎo)致AI算力下降50%。因此需要構(gòu)建無(wú)損數(shù)據(jù)中心網(wǎng)絡(luò)。

目前智算中心大規(guī)模組網(wǎng)主要有IB和RoCE兩種方案。對(duì)于IB組網(wǎng),英偉達(dá)能夠提供從GPU到服務(wù)器到交換機(jī)的全家桶式一體化解決方案,但成本高。RoCE基于以太網(wǎng)RDMA技術(shù),目前已發(fā)展到第二代,可以復(fù)用現(xiàn)有的以太網(wǎng)設(shè)備,成本低,備受青睞。

對(duì)于智算中心網(wǎng)絡(luò)的高帶寬需求,直接反映在光模塊的應(yīng)用上。隨著交換芯片容量來(lái)到51.2T,800G光模塊開始嶄露頭角。面對(duì)光模塊大規(guī)模部署應(yīng)用,成本和功耗問題日益顯著,打造綠色、低碳的智算中心勢(shì)在必行。

為了改善千卡/萬(wàn)卡集群算力消耗的功耗和時(shí)延,LPO/LRO新型光模塊備受關(guān)注。劉昊介紹,目前產(chǎn)業(yè)正加快標(biāo)準(zhǔn)化進(jìn)程,今年3月,12家單位成立LPO-MSA聯(lián)盟,旨在定義LPO系列標(biāo)準(zhǔn),不過能否實(shí)現(xiàn)規(guī)模化應(yīng)用有待時(shí)間檢驗(yàn)。

想要進(jìn)一步降低設(shè)備的處理和轉(zhuǎn)發(fā)時(shí)延,基于SDN的光路交換技術(shù)(OCS)來(lái)到聚光燈下,為智算提供一種新型組網(wǎng)方案。目前谷歌和英偉達(dá)都有相應(yīng)方案,器件方面Lumentum、光迅都稱有相應(yīng)產(chǎn)品。不過,是否能充分發(fā)揮其自身優(yōu)勢(shì)取決于應(yīng)用方式,控制器需要升級(jí)以滿足無(wú)損應(yīng)用。

智算中心之間光互連

AI大模型的持續(xù)火熱,對(duì)算力的需求持續(xù)攀升,超大規(guī)模智算中心資源日漸稀缺,跨區(qū)域算力協(xié)同成為算力資源的重要補(bǔ)充。

劉昊介紹,以中國(guó)電信為例,目前已經(jīng)在全國(guó)范圍內(nèi)部署眾多智算中心,同時(shí)大量中小型智算中心算力不足,考慮到合理利用,通過對(duì)跨區(qū)域中小型智算中心進(jìn)行組網(wǎng),實(shí)現(xiàn)遠(yuǎn)距離算力協(xié)同調(diào)度。

對(duì)于智算中心拉遠(yuǎn)需求,WDM/OTN是不二之選,其大帶寬、低時(shí)延、強(qiáng)保護(hù)等特性,能夠?yàn)橹撬闾峁┓€(wěn)定的傳輸管道。劉昊表示,不同于在同一智算中心執(zhí)行訓(xùn)練任務(wù),智算中心拉遠(yuǎn)面臨一系列挑戰(zhàn),包括傳輸時(shí)延對(duì)模型訓(xùn)練的效率影響,遠(yuǎn)距離通信如何做到無(wú)損傳輸,傳輸設(shè)備引入的建設(shè)成本,不同類型設(shè)備之間能否解耦。

在劉昊看來(lái),拉遠(yuǎn)場(chǎng)景下開放的智算光網(wǎng)絡(luò)系統(tǒng)有助于提高模型訓(xùn)練效率,短期方案是信息實(shí)時(shí)共享,這需要制定協(xié)議,如傳輸側(cè)感知無(wú)損業(yè)務(wù)類型、帶寬、VLAN等,IP側(cè)感知時(shí)延、帶寬等;終極目標(biāo)是控制器管理所有設(shè)備,需要跨專業(yè)協(xié)同,難度大。整體來(lái)看,DCI場(chǎng)景下跨域設(shè)備管控方案建議標(biāo)準(zhǔn)先行。

據(jù)了解,在開放解耦的道路上,中國(guó)電信具備一定的經(jīng)驗(yàn)積累。中國(guó)電信的DCI-BOX盒式波分設(shè)備經(jīng)過兩期發(fā)展迭代,具備城域內(nèi)組網(wǎng)能力,支持10G-100G業(yè)務(wù)接入能力,單波200G/400G,具備光層組網(wǎng)能力,可覆蓋滿足大帶寬數(shù)據(jù)中心互聯(lián)、城域波分組網(wǎng)場(chǎng)景。

對(duì)于DCI-BOX能否繼續(xù)在智算場(chǎng)景發(fā)揮價(jià)值?劉昊認(rèn)為,盒式波分設(shè)備支持城域組網(wǎng),具備向800G演進(jìn)的水平,其開放解耦的特征能夠支撐智算拉遠(yuǎn)場(chǎng)景應(yīng)用。

劉昊介紹,近期中國(guó)電信北京公司在現(xiàn)網(wǎng)完成城域三節(jié)點(diǎn)無(wú)損智算網(wǎng)絡(luò)部署,采用800G組網(wǎng)方案,分布式訓(xùn)練性能達(dá)到集中式單智算中心訓(xùn)練性能的90%以上,證實(shí)了分布式無(wú)損智算網(wǎng)技術(shù)方向的可行性。后續(xù),中國(guó)電信將在此基礎(chǔ)上進(jìn)一步驗(yàn)證更高速率組網(wǎng)方案,以及嘗試采用空芯光纖降低傳輸時(shí)延,驗(yàn)證其對(duì)運(yùn)算效率提升的影響。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-05-23
中國(guó)電信劉昊:算網(wǎng)協(xié)同,開放光網(wǎng)絡(luò)助力智算中心高質(zhì)量發(fā)展
中國(guó)電信劉昊:算網(wǎng)協(xié)同,開放光網(wǎng)絡(luò)助力智算中心高質(zhì)量發(fā)展,C114訊 5月23日消息(水易)今日,CIOE中國(guó)光博會(huì)與C114通信網(wǎng)聯(lián)合舉辦“2024中國(guó)光通

長(zhǎng)按掃碼 閱讀全文