9月12日消息(水易)第25屆中國(guó)國(guó)際光電博覽會(huì)在深圳開幕,同期舉辦的“算力時(shí)代新型光傳送技術(shù)論壇”期間,中國(guó)電信研究院副院長(zhǎng)李俊杰表示,智算時(shí)代,算力需求從線性增長(zhǎng)變?yōu)橹笖?shù)級(jí)增長(zhǎng),未來集群向十萬卡級(jí)甚至百萬卡級(jí)演進(jìn)以支撐模型參數(shù)擴(kuò)展。
AI大模型訓(xùn)練等工作需要在大量的計(jì)算單位中傳遞海量數(shù)據(jù),打造大帶寬、低時(shí)延、高可靠的高品質(zhì)智算互聯(lián)光網(wǎng)絡(luò)基礎(chǔ)設(shè)施成為關(guān)鍵。在李俊杰看來,智算時(shí)代,光通信技術(shù)迎來一系列新技術(shù)需求和新應(yīng)用機(jī)會(huì)。
智算中心內(nèi):要重視光模塊可靠性
目前數(shù)據(jù)中心內(nèi)部,Spine-Leaf架構(gòu)成為主流,大幅提升了數(shù)據(jù)互連的效率。不過,隨著AI需求的持續(xù)增長(zhǎng),需要對(duì)架構(gòu)持續(xù)創(chuàng)新,F(xiàn)ull-mesh Spine-leaf架構(gòu)的出現(xiàn)對(duì)對(duì)光模塊的需求顯著增加。
當(dāng)前,數(shù)據(jù)中心內(nèi)800G光模塊逐漸成為主流,1.6T光模塊應(yīng)用需求開始萌芽,3.2T光模塊技術(shù)開始研究。核心電口方面,單通道100G serdes速率技術(shù)成熟,單通道200G預(yù)計(jì)2025年啟動(dòng)應(yīng)用。標(biāo)準(zhǔn)層面,800G光模塊標(biāo)準(zhǔn)基本完成,1.6T光模塊標(biāo)準(zhǔn)處于研究階段。
與此同時(shí),隨著光模塊速率持續(xù)升級(jí),在功耗控制、單比特傳輸成本優(yōu)化、傳輸時(shí)延等方面對(duì)光模塊提出了更高的要求,發(fā)展低成本、低功耗和低時(shí)延的高速光模塊勢(shì)在必行。李俊杰表示,800G/1.6T會(huì)有更多LPO/LRO的創(chuàng)新,到了3.2T以上會(huì)走向CPO。
另外,大模型訓(xùn)練的高可靠要求傳遞到了光模塊,智算中心光模塊可靠性要求或許超過電信級(jí)。李俊杰指出:“只要可用率提升很多,訓(xùn)練帶來的收益會(huì)更大。”據(jù)了解,IPEC立項(xiàng)電信級(jí)光模塊可靠性要求標(biāo)準(zhǔn)項(xiàng)目,促進(jìn)電信級(jí)光模塊的質(zhì)量提升和市場(chǎng)發(fā)展。
想要進(jìn)一步降低設(shè)備的處理和轉(zhuǎn)發(fā)時(shí)延,OCS憑借全光交換優(yōu)勢(shì),可為智算中心內(nèi)部互聯(lián)提供一種新型組網(wǎng)方案。據(jù)介紹,目前互聯(lián)網(wǎng)公司對(duì)OCS的探索和實(shí)踐更為靠前,主要有壓電陶瓷方案、MEMS方案等等,不同技術(shù)方案的可靠性、切換時(shí)間、端口數(shù)量、成本、功耗等性能需進(jìn)一步驗(yàn)證。
智算中心間:分布式集群成為熱點(diǎn)
超大規(guī)模GPU集群成為大模型訓(xùn)練的必要條件,需求指數(shù)級(jí)增長(zhǎng)對(duì)AI基礎(chǔ)設(shè)施帶來極大挑戰(zhàn),特別是電力供應(yīng)/機(jī)房空間成為單體大規(guī)模智算建設(shè)的瓶頸。對(duì)此,業(yè)界正在探索多數(shù)據(jù)中心互聯(lián)提供分布式訓(xùn)練環(huán)境。
目前,骨干網(wǎng)已經(jīng)入400G C+L時(shí)代,800G可覆蓋城域應(yīng)用場(chǎng)景,1.2T可覆蓋數(shù)據(jù)中心光互聯(lián)場(chǎng)景。與此同時(shí),受智算業(yè)務(wù)大帶寬的需求,S波段或成為下一代波段擴(kuò)展的方向。然而,光放大器、多波段下的功率管理,以及系統(tǒng)級(jí)性能優(yōu)化仍然是挑戰(zhàn)。
“我們做所有的事情都是需要商業(yè)閉環(huán),一定是真需求、真方案,而且是性價(jià)比可靠的方案?!崩羁〗軓?qiáng)調(diào),技術(shù)最終要為業(yè)務(wù)服務(wù),比如說多波段,技術(shù)人員肯定會(huì)覺得這么長(zhǎng)的頻譜非常完美,也可以實(shí)現(xiàn),不過是否能夠商業(yè)閉環(huán),需要認(rèn)真考慮。
中國(guó)電信積極探索800G以及擴(kuò)展波段傳輸,800G實(shí)現(xiàn)省際熱點(diǎn)區(qū)域的高速傳輸;1.2T可以支持DCI大容量互聯(lián);S+C+L能夠進(jìn)一步提高單纖可支持的最大傳輸容量。
除了骨干網(wǎng)技術(shù)的升級(jí),空芯光纖等新型傳輸介質(zhì),未來在更長(zhǎng)距離智算拉遠(yuǎn)場(chǎng)景,可進(jìn)一步優(yōu)化傳輸鏈路時(shí)延。中國(guó)電信聯(lián)合產(chǎn)業(yè)界伙伴完成數(shù)據(jù)中心間10km空芯光纜的管道鋪設(shè)與戶外熔接等,驗(yàn)證了其部署的可行性。李俊杰介紹,空芯光纖還需要解決光纖拉絲長(zhǎng)度距離短、對(duì)應(yīng)力敏感、熔接回?fù)p大、運(yùn)維難度大等挑戰(zhàn),才能加速商用進(jìn)程。
據(jù)了解,中國(guó)電信完成了業(yè)界首例現(xiàn)網(wǎng)140公里、異地三機(jī)房分布式訓(xùn)練驗(yàn)證,實(shí)驗(yàn)表明,百億參數(shù)模型在百公里內(nèi)的64卡級(jí)(6.4T帶寬)分布式訓(xùn)練性能達(dá)到集中式訓(xùn)練性能的95%以上。
對(duì)于多點(diǎn)智算集群大規(guī)模組網(wǎng)后續(xù)優(yōu)化思路,李俊杰表示可以通過增加網(wǎng)絡(luò)互連帶寬和提高系統(tǒng)可靠性來探索最佳解決方案,實(shí)現(xiàn)無損智算傳輸網(wǎng)絡(luò)。此外,能否廣泛部署需要解決IP與光協(xié)同管控問題,計(jì)算技術(shù)和網(wǎng)絡(luò)技術(shù)的協(xié)同是提高分布式智算集群效率的關(guān)鍵。
- 美聯(lián)邦貿(mào)易委員會(huì)警告微軟和OpenAI存在反壟斷風(fēng)險(xiǎn)
- NTT Data攜手伙伴探索機(jī)器人和AI未來 為工廠測(cè)試智能維護(hù)技術(shù)
- 特朗普簽署行政令:給予TikTok“不賣就禁”75天寬限期
- 美聯(lián)邦貿(mào)易委員會(huì)警告微軟和OpenAI存在反壟斷風(fēng)險(xiǎn)
- NTT Data攜手伙伴探索機(jī)器人和AI未來 為工廠測(cè)試智能維護(hù)技術(shù)
- 特朗普簽署行政令:給予TikTok“不賣就禁”75天寬限期
- 中國(guó)移動(dòng)綠色多頻段基站天線產(chǎn)品集采:規(guī)模為27.24萬面
- 工信部謝存:2025年力爭(zhēng)全面實(shí)現(xiàn)電信業(yè)務(wù)線上辦
- 工信部陶青:1-11月我國(guó)云計(jì)算、大數(shù)據(jù)服務(wù)業(yè)務(wù)收入同比增長(zhǎng)10.5%
- 工信部張?jiān)泼鳎?G+工業(yè)互聯(lián)網(wǎng)全國(guó)建設(shè)項(xiàng)目數(shù)超1.7萬個(gè)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。