為什么說(shuō)MEMS-OXC在智算場(chǎng)景沒(méi)有未來(lái)?

智算中心是這一輪科技革命的算力“心臟”,更是國(guó)際科技博弈的長(zhǎng)期焦點(diǎn)。智算中心建設(shè)方案,一直牽動(dòng)著國(guó)人的神經(jīng)。

近期,OXC光交換技術(shù)在智算場(chǎng)景的應(yīng)用,走進(jìn)了大眾視野,這個(gè)技術(shù)及其解決方案,撐得起智算中心網(wǎng)絡(luò)嗎?

深入技術(shù)本質(zhì)、落地實(shí)踐、產(chǎn)業(yè)進(jìn)程來(lái)看,恐怕都要說(shuō)一句,“OXC技術(shù)在智算場(chǎng)景其實(shí)沒(méi)有未來(lái)”。

技術(shù)上看,OXC光交換技術(shù)在智算場(chǎng)景中會(huì)面臨光電協(xié)同、不支持AI任務(wù)多對(duì)多傳輸?shù)燃夹g(shù)挑戰(zhàn),很難有效解決。

實(shí)踐上看,當(dāng)前業(yè)界僅谷歌一家商用MEMS-OXC設(shè)備,而谷歌TPU集群用OXC的核心目的是解決Torus拓?fù)涞目捎枚葐?wèn)題,但網(wǎng)絡(luò)可用度的短板其實(shí)是在接入端口,OXC不解決網(wǎng)絡(luò)可用度問(wèn)題,所以實(shí)際上跟自動(dòng)配線(xiàn)架沒(méi)有本質(zhì)區(qū)別。

產(chǎn)業(yè)上看,谷歌商用OXC全球僅此一家,根據(jù)LightCounting預(yù)測(cè),到2029年OXC的全球市場(chǎng)空間約為5億美元,其中大部分是谷歌,產(chǎn)業(yè)規(guī)模僅為電交換的二十分之一。

綜合上述維度,不難得出結(jié)論,OXC技術(shù)在智算場(chǎng)景中只是配線(xiàn)架,無(wú)法真的規(guī)?;涞?,也支撐不了超萬(wàn)卡集群智算中心網(wǎng)絡(luò)。

接下來(lái)咱們就從技術(shù)的起點(diǎn)到產(chǎn)業(yè)的終點(diǎn),全面掀開(kāi)智算場(chǎng)景MEMS-OXC的面紗。

簡(jiǎn)單來(lái)說(shuō),OXC光交換技術(shù)就是在不同的光路徑之間進(jìn)行光信號(hào)交換。技術(shù)路徑包括MEMS、DLC、和DLBS。其中,MEMS技術(shù)是目前最主流的方案,MEMS-OXC設(shè)備也是目前唯一被谷歌這一家所商用的。

但在超萬(wàn)卡集群的智算中心網(wǎng)絡(luò)中,MEMS-OXC發(fā)揮的作用其實(shí)就是配線(xiàn)架。

我們先來(lái)看看,智算中心組網(wǎng)是怎么實(shí)現(xiàn)的。ODCC(開(kāi)放數(shù)據(jù)中心委員會(huì))發(fā)布的《AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)》報(bào)告提到,AI參數(shù)面網(wǎng)絡(luò)有兩層Spine—Leaf,以及三層CLOS架構(gòu)組網(wǎng),而在AI集群組網(wǎng)實(shí)踐中,通過(guò)三層組網(wǎng)達(dá)到十萬(wàn)卡以上的組網(wǎng)規(guī)模。

目前,Meta、OpenAI、微軟等AI巨頭,都是通過(guò)從兩層向三層擴(kuò)展的組網(wǎng)模式,去構(gòu)建超大規(guī)模集群的,也就是在Leaf層、Spine層之外增加Core層。其中,兩層組網(wǎng)使用的是電交換機(jī)。比如目前業(yè)界唯一的OXC商用實(shí)踐——谷歌也采用的是光電混合架構(gòu)。

可以看到,智算中心網(wǎng)絡(luò)如果采用兩層組網(wǎng),不需要OXC;如果是三層組網(wǎng),MEMS -OXC設(shè)備在Core層主要發(fā)揮的作用是靈活配線(xiàn),與自動(dòng)配線(xiàn)架沒(méi)有本質(zhì)區(qū)別。

引入MEMS-OXC,不僅無(wú)法給網(wǎng)絡(luò)帶來(lái)增益,還可能制造出額外的問(wèn)題:

首先,光電協(xié)同問(wèn)題。

如果在第三層引入OXC光交換機(jī),但數(shù)據(jù)中心網(wǎng)絡(luò)底層用的還是電交換機(jī),這就需要光電之間的協(xié)同、通信、配合,對(duì)整個(gè)數(shù)據(jù)中心網(wǎng)絡(luò)的沖擊是比較大的。

舉個(gè)例子,OXC技術(shù)有靈活切換的特征,但對(duì)于整網(wǎng)來(lái)說(shuō),光交換機(jī)一會(huì)兒連通、一會(huì)兒斷開(kāi),這就需要整個(gè)接入層和Spine層,都要隨之進(jìn)行策略調(diào)整。

試想一下,智算場(chǎng)景下的大模型訓(xùn)練大多采用并行訓(xùn)練,業(yè)務(wù)流隨時(shí)變化,如果數(shù)據(jù)中心網(wǎng)絡(luò)隨時(shí)隨地在進(jìn)行秒級(jí)調(diào)整,那訓(xùn)練的可靠性就很難保證了。任何一個(gè)大模型研發(fā)團(tuán)隊(duì),恐怕都無(wú)法接受訓(xùn)練的高頻中斷。

其次,OXC與AI業(yè)務(wù)的適配問(wèn)題。

OXC光交換技術(shù)是不支持多對(duì)多通信的,只能進(jìn)行純物理的轉(zhuǎn)發(fā)。而在智算場(chǎng)景中,AI任務(wù)是有很多算法和算子的,不同算法的通信模式都不太一樣,可能需要一對(duì)多、多對(duì)一、多對(duì)多等多種轉(zhuǎn)發(fā)方式。這些算法的高效通信,OXC技術(shù)就很難滿(mǎn)足,導(dǎo)致相關(guān)智算業(yè)務(wù)無(wú)法開(kāi)展。

第三大問(wèn)題,就是OXC的耗能問(wèn)題。

OXC光交換機(jī)的插損很大,也就是信號(hào)在光折射的過(guò)程中產(chǎn)生了衰減。那么為了彌補(bǔ)OXC的插損,就不得不采用更大功率或更長(zhǎng)距離的光模塊,這又會(huì)導(dǎo)致能耗上升。此外,插損問(wèn)題,還會(huì)導(dǎo)致光模塊速率無(wú)法演進(jìn)。

由于上述問(wèn)題的存在,智算中心結(jié)合插損、功耗等多方面進(jìn)行考量,算一筆綜合賬,就會(huì)發(fā)現(xiàn)MEMS-OXC設(shè)備還不如自動(dòng)配線(xiàn)架。

MEMS-OXC不如自動(dòng)配線(xiàn)架的另一個(gè)關(guān)鍵因素,就是商用前景。

我們知道,一項(xiàng)新技術(shù)都必須在商業(yè)市場(chǎng)中完成閉環(huán),能夠通過(guò)使用來(lái)回收投資,才能吸引基礎(chǔ)設(shè)施的進(jìn)一步投入,形成良性循環(huán)。而OXC技術(shù)的產(chǎn)業(yè)化,良性商業(yè)閉環(huán)是很難的。

最首要的制約,是成本。

OXC技術(shù)的落地需要光交換機(jī)的大量使用,并且所有的相關(guān)器件如光模塊都需要進(jìn)行升級(jí),這會(huì)導(dǎo)致前期投資巨大,綜合成本高。

ODCC(開(kāi)放數(shù)據(jù)中心委員會(huì))在《AI網(wǎng)絡(luò)光交換機(jī)技術(shù)報(bào)告》中提出,考慮到網(wǎng)絡(luò)系統(tǒng)和OCS(光交換機(jī))本身的挑戰(zhàn),從端口數(shù)量需求、切換時(shí)間需求、低成本、高可靠性、拓?fù)湟子诠芾淼染S度分析,光交換機(jī)還需要優(yōu)化設(shè)計(jì)以降低插損和回波損耗,以及探索與電交換機(jī)組網(wǎng)方案來(lái)降低成本等。

而上述投資,都需要從產(chǎn)業(yè)用戶(hù)身上完成商業(yè)回報(bào)。但如前所說(shuō),受限于光交換技術(shù)本身的瓶頸,許多AI任務(wù)及場(chǎng)景是短期內(nèi)難以落地的,這就導(dǎo)致OXC的商業(yè)不確定性強(qiáng)。

這樣綜合考慮下來(lái),就導(dǎo)致業(yè)界落地OXC的步伐明顯冷靜,基本處于觀望狀態(tài)。

技術(shù)不是生存在真空之中的,是寄生在人才、資金、產(chǎn)業(yè)、實(shí)體經(jīng)濟(jì)等多重因素的現(xiàn)實(shí)中。

中國(guó)智算產(chǎn)業(yè)仍處于追趕階段,資源、人才等都相對(duì)不足,既要把握發(fā)展前景與機(jī)遇,也要面對(duì)當(dāng)下生存、商業(yè)的現(xiàn)實(shí)挑戰(zhàn),甚至有的還要處理歷史遺留問(wèn)題。

這種情況下,如果國(guó)內(nèi)智算產(chǎn)業(yè)將寶貴的資源,投入并不適合用來(lái)組網(wǎng)的OXC身上,可能會(huì)導(dǎo)致一系列連鎖反應(yīng)。

比如產(chǎn)業(yè)資源的分散,智算中心建設(shè)昂貴,而在組網(wǎng)規(guī)模、插損、功耗、成本等方面都沒(méi)有優(yōu)勢(shì)的OXC設(shè)備,意味著低效投資,降低科技企業(yè)的抗風(fēng)險(xiǎn)能力。

MEMS-OXC設(shè)備在智算集群中的落地效果并不顯著,解決不了網(wǎng)絡(luò)可用度問(wèn)題,引入OXC會(huì)影響到AI算力的傳輸與供給,進(jìn)而阻礙AI訓(xùn)練、AI推理等業(yè)務(wù)的韌性開(kāi)展。

更需要警惕的是,對(duì)OXC路線(xiàn)的炒作,可能導(dǎo)致國(guó)內(nèi)智算錯(cuò)過(guò)對(duì)其他技術(shù)路線(xiàn)的探索,由此帶來(lái)的機(jī)會(huì)成本,是無(wú)法估量的。

所以,只能作為自動(dòng)配線(xiàn)架的OXC,并不適合成為智算中心組網(wǎng)的選擇,在智算場(chǎng)景沒(méi)有未來(lái)。眼下,中國(guó)智算產(chǎn)業(yè)真正該做的,是把自身在成熟交換技術(shù)、現(xiàn)有寶貴資源、產(chǎn)業(yè)智能化機(jī)遇等方面的核心優(yōu)勢(shì),進(jìn)一步發(fā)揮好。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-11-16
為什么說(shuō)MEMS-OXC在智算場(chǎng)景沒(méi)有未來(lái)?
為什么說(shuō)MEMS-OXC在智算場(chǎng)景沒(méi)有未來(lái)?

長(zhǎng)按掃碼 閱讀全文