凌云光解決方案總監(jiān)張華:軟件定義全光交換在高性能計(jì)算和數(shù)據(jù)中心應(yīng)用

6月8日消息(焦焦)ChatGPT引爆了人工智能(AI)/機(jī)器學(xué)習(xí)(ML)新的需求高潮,當(dāng)前GPU互聯(lián)端口已采用800G(2x400G),下一代會(huì)演進(jìn)到1.6T(2x800G),數(shù)據(jù)中心對(duì)光互聯(lián)的帶寬需求越來(lái)越高。在昨日舉辦的2023年中國(guó)光通信高質(zhì)量發(fā)展論壇系列“數(shù)據(jù)中心光互聯(lián)技術(shù)研討會(huì)”上,凌云光解決方案總監(jiān)張華博士與行業(yè)同仁分享了在當(dāng)今數(shù)字化轉(zhuǎn)型的時(shí)期, “軟件定義全光交換在高性能計(jì)算和數(shù)據(jù)中心應(yīng)用”。

Al/ML集群互聯(lián)對(duì)HPC和數(shù)據(jù)中心互聯(lián)提出新挑戰(zhàn)

伴隨著帶寬增長(zhǎng),AI/ML集群規(guī)模從幾百?gòu)埣铀倏ǖ缴先f(wàn)張擴(kuò)展,集群互聯(lián)距離從數(shù)十米到上百米延伸,Al/ML集群互聯(lián)對(duì)低功耗和低延遲需求迫切,現(xiàn)有電交換面臨瓶頸。由此,也對(duì)HPC的發(fā)展提出了更高要求:第一、HPC集群規(guī)模需要靈活配置;第二、HPC網(wǎng)絡(luò)要求長(zhǎng)期穩(wěn)定運(yùn)行。

此外,大規(guī)模數(shù)據(jù)中心互聯(lián)也面臨著新的挑戰(zhàn):挑戰(zhàn)一:Spine交換機(jī)成為性能瓶頸;挑戰(zhàn)2:隨著端口速率從100G->200G->400G->800G演進(jìn),能效提升進(jìn)入平臺(tái)期。

OCS全光交換方案適配新挑戰(zhàn)

OCS全光交換方案可以很好應(yīng)對(duì)上述需求和挑戰(zhàn)。OCS具備全光交換優(yōu)點(diǎn),光信號(hào)完全透明傳輸,支持光纖中任意速率/任意調(diào)制格式/任意通信波長(zhǎng)光信號(hào)交換,具有無(wú)時(shí)鐘抖動(dòng),無(wú)延遲,不讀取數(shù)據(jù),無(wú)泄漏風(fēng)險(xiǎn)等特點(diǎn),也支持SDN使能控制。目前在以Google為代表的TPUv4高性能計(jì)算中心和Jupiter數(shù)據(jù)中心已成功應(yīng)用。

基于OCS全光交換有效提升了Google TPU v4集群互聯(lián)可靠性,在主機(jī)可靠性降到99.0%仍能保證TPU切片有較好的性能,可使系統(tǒng)的性能提升6倍以上。在取得以上這些收益的同時(shí),光交換互聯(lián)方案包括OCS、光模塊及光纖占總體超算節(jié)點(diǎn)成本<5%、功耗<3%。

Google Jupiter數(shù)據(jù)中心網(wǎng)絡(luò)方案在Spine層引入光線(xiàn)路交換(OCS),采用SDN動(dòng)態(tài)調(diào)整拓?fù)渎酚蛇m配,流量工程可適應(yīng)秒~分鐘級(jí)變化;拓?fù)涔こ炭蛇m應(yīng)以天為單位變化,適配異質(zhì)速率和實(shí)時(shí)應(yīng)用通信模式。可用于大流量拓?fù)渲貥?gòu)、網(wǎng)絡(luò)擴(kuò)容、多速率共存等場(chǎng)景。從收益方面看,網(wǎng)絡(luò)CAPEX降低30%,功耗下降40%。Fabric拓?fù)渲貥?gòu)速度提升10倍以上。流完成時(shí)間(FCT)提升10%,吞吐量提升30%。

OCS全光交換技術(shù)應(yīng)用廣泛,前景不容小覷

張華表示,從上述兩個(gè)Google方案中已經(jīng)全面的展示了OCS全光交換技術(shù)優(yōu)勢(shì)。目前OCS全光交換應(yīng)用較廣泛的核心技術(shù)主要包括:DirectLight技術(shù)、2D/3D MEMS技術(shù)以及其他光開(kāi)關(guān)技術(shù)。

其中,DirectLight技術(shù)采用壓電陶瓷材料帶動(dòng)準(zhǔn)直器旋轉(zhuǎn),空間直接耦合對(duì)準(zhǔn)(“針尖對(duì)麥芒”),實(shí)現(xiàn)任意端口光路切換,目前矩陣規(guī)模最大574x574。DirectLight技術(shù)的最要特點(diǎn)為:插損等光學(xué)性能指標(biāo)優(yōu)異,抗震性佳(可抗里氏8級(jí)以上地震),能實(shí)現(xiàn)靈活的光信號(hào)交換,支持“暗光纖(無(wú)光)”模式下光信號(hào)單路雙向?qū)鞯取?/p>

基于DirectLight壓電陶瓷技術(shù)的矩陣光開(kāi)關(guān)自從2003年商用化以來(lái),已經(jīng)廣泛應(yīng)用于各種場(chǎng)合,例如智能監(jiān)控系統(tǒng)、國(guó)際空間站、數(shù)據(jù)中心/超算中心等等。目前累計(jì)現(xiàn)網(wǎng)運(yùn)行時(shí)間150億+端口小時(shí),4500+套系統(tǒng)已鋪設(shè),300+個(gè)客戶(hù)在使用。其穩(wěn)定性和可靠性已經(jīng)得到充分驗(yàn)證。

最后,張華總結(jié)到,隨著數(shù)據(jù)中心OCS應(yīng)用進(jìn)一步下沉(Spine->Leaf),需要更快切換速度、小端口低成本OCS,能適配TOR與匯聚交換機(jī)之間突發(fā)流量。未來(lái)隨著集群規(guī)模擴(kuò)展,將需要更大端口OCS,同時(shí)需提升OCS可靠性和插回?fù)p性能,DirectLight OCS技術(shù)方案會(huì)有更廣闊應(yīng)用前景。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2023-06-08
凌云光解決方案總監(jiān)張華:軟件定義全光交換在高性能計(jì)算和數(shù)據(jù)中心應(yīng)用
凌云光解決方案總監(jiān)張華:軟件定義全光交換在高性能計(jì)算和數(shù)據(jù)中心應(yīng)用,C114訊 6月8日消息(焦焦)ChatGPT引爆了人工智能(AI)/機(jī)器學(xué)習(xí)(ML)新的需求高潮,

長(zhǎng)按掃碼 閱讀全文