瀏覽科技新聞?lì)^條,你就會(huì)不由自主地認(rèn)為人工智能(AI)即將改變幾乎所有行業(yè)。然而,通常情況下,這些故事描繪的人工智能驅(qū)動(dòng)的顛覆仍然是假設(shè)的。而對(duì)于運(yùn)營(yíng)世界上最大數(shù)據(jù)中心的組織來(lái)說(shuō),轉(zhuǎn)型已經(jīng)開(kāi)始。
生成式人工智能(GenAI)應(yīng)用對(duì)性能的超高要求及其爆炸式增長(zhǎng),正在將當(dāng)前的數(shù)據(jù)中心網(wǎng)絡(luò)推向極限。為此,超大規(guī)模企業(yè)和云服務(wù)提供商正爭(zhēng)相添加數(shù)千個(gè)圖形處理單元和其他硬件加速器(xPU),以擴(kuò)大人工智能計(jì)算集群。
連接它們需要網(wǎng)絡(luò)以前所未有的規(guī)模提供高吞吐量和低延遲,同時(shí)支持更復(fù)雜的流量模式,例如微突發(fā)。數(shù)據(jù)中心運(yùn)營(yíng)商不能像過(guò)去那樣,簡(jiǎn)單地通過(guò)增加更多機(jī)架和光纖設(shè)備來(lái)滿足這些需求。無(wú)論是否準(zhǔn)備好,他們別無(wú)選擇,只能重新構(gòu)想數(shù)據(jù)中心架構(gòu)。
新興的AI優(yōu)化數(shù)據(jù)中心結(jié)構(gòu)將會(huì)是什么樣子?它們將使用哪些接口技術(shù),以及它們將如何影響800-Gbps傳輸和下一代以太網(wǎng)的市場(chǎng)接受度?數(shù)據(jù)中心運(yùn)營(yíng)商目前正在研究這些問(wèn)題,但即使在早期階段,我們也開(kāi)始得到一些答案。
應(yīng)對(duì)人工智能網(wǎng)絡(luò)挑戰(zhàn)
預(yù)計(jì)每?jī)赡辏?a href="http://www.ygpos.cn/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD_1.html" target="_blank" class="keylink">人工智能應(yīng)用流量將增長(zhǎng)10倍,人工智能集群規(guī)模將增長(zhǎng)4倍。這種增長(zhǎng)部分源于人工智能應(yīng)用的普及,但很大一部分源于AI模型本身日益復(fù)雜,以及隨之而來(lái)的xPU到xPU通信的超大規(guī)模。
為了理解其中的原因,我們可以回顧一下人工智能工作負(fù)載的實(shí)際含義。基本上,AI集群必須支持工作負(fù)載處理的兩個(gè)階段:
● 模型訓(xùn)練涉及攝取大量數(shù)據(jù)集來(lái)訓(xùn)練人工智能算法來(lái)尋找模式或建立關(guān)聯(lián)。
● 人工智能推理需要人工智能模型將其訓(xùn)練應(yīng)用于新數(shù)據(jù)。
這兩個(gè)階段都不會(huì)對(duì)主要用于數(shù)據(jù)采集的前端接入網(wǎng)絡(luò)產(chǎn)生重大的短期影響。然而,在后端集群中,密集的AI訓(xùn)練和推理工作負(fù)載需要一個(gè)單獨(dú)的、可擴(kuò)展的、可路由的網(wǎng)絡(luò)來(lái)連接數(shù)千甚至數(shù)萬(wàn)個(gè)xPU。
許多云服務(wù)提供商已經(jīng)在努力實(shí)現(xiàn)當(dāng)前AI工作負(fù)載的TB網(wǎng)絡(luò)閾值。隨著人工智能模型的復(fù)雜性每三年增長(zhǎng)1000倍,在不久的將來(lái),他們可能需要支持具有數(shù)萬(wàn)億個(gè)密集參數(shù)的模型。為了滿足這些需求,數(shù)據(jù)中心運(yùn)營(yíng)商需要提供以下功能的網(wǎng)絡(luò)結(jié)構(gòu):
極高的吞吐量:人工智能集群必須能夠處理極其計(jì)算和數(shù)據(jù)密集型的工作負(fù)載,并并行支持?jǐn)?shù)千個(gè)同步作業(yè)。特別是AI推理工作負(fù)載,每個(gè)加速器產(chǎn)生的流量比前端網(wǎng)絡(luò)多5倍,需要的帶寬比前端網(wǎng)絡(luò)多5倍。
極低延遲:AI工作負(fù)載必須通過(guò)大量節(jié)點(diǎn),因此系統(tǒng)中任何一點(diǎn)的過(guò)高延遲都可能導(dǎo)致嚴(yán)重延遲。當(dāng)前AI工作負(fù)載處理中約三分之一的時(shí)間用于等待網(wǎng)絡(luò)。對(duì)于許多實(shí)時(shí)AI應(yīng)用,此類(lèi)延遲可能導(dǎo)致用戶體驗(yàn)不佳,甚至導(dǎo)致應(yīng)用無(wú)法使用。
零數(shù)據(jù)包丟失:當(dāng)網(wǎng)絡(luò)嘗試緩沖或重新傳輸丟失的數(shù)據(jù)包時(shí),數(shù)據(jù)包丟失可能是造成延遲的重要因素。這對(duì)于AI模型訓(xùn)練來(lái)說(shuō)是一個(gè)大問(wèn)題,因?yàn)樵诮邮盏剿袛?shù)據(jù)包之前,工作負(fù)載操作甚至無(wú)法完成。
大規(guī)??蓴U(kuò)展性:為了支持更先進(jìn)的人工智能應(yīng)用,模型訓(xùn)練和其他分布式工作負(fù)載,必須能夠有效擴(kuò)展到數(shù)千個(gè)節(jié)點(diǎn)上的數(shù)十億個(gè)參數(shù)。
總的來(lái)說(shuō),這些要求強(qiáng)調(diào)了后端AI基礎(chǔ)設(shè)施需要新的橫向擴(kuò)展葉和脊架構(gòu)。使用數(shù)千個(gè)xpu的中等規(guī)模AI應(yīng)用可能需要帶有AI葉子層的機(jī)架級(jí)集群。連接數(shù)萬(wàn)個(gè)加速器的最大人工智能集群將需要具有可路由結(jié)構(gòu)和人工智能葉脊的數(shù)據(jù)中心規(guī)模架構(gòu)。
人工智能市場(chǎng)不斷發(fā)展
關(guān)于人工智能的最大懸而未決的問(wèn)題之一是新興應(yīng)用將如何影響800G以太網(wǎng)等下一代接口技術(shù)的采用。這也是一個(gè)正在展開(kāi)的故事,但我們開(kāi)始對(duì)市場(chǎng)將如何發(fā)展有了些許了解。
由于前端數(shù)據(jù)中心網(wǎng)絡(luò)將在很大程度上遵循傳統(tǒng)的升級(jí)時(shí)間表,預(yù)計(jì)到2027年,800G以太網(wǎng)將占前端網(wǎng)絡(luò)端口的三分之一。然而,在后端網(wǎng)絡(luò)中,運(yùn)營(yíng)商的遷移速度要快得多。在那里,800Gbps接口的采用率將以三位數(shù)的速度增長(zhǎng),到2027年幾乎涵蓋所有后端端口。
我們也開(kāi)始了解運(yùn)營(yíng)商將使用哪種接口技術(shù)。預(yù)計(jì)在可預(yù)見(jiàn)的未來(lái),大多數(shù)運(yùn)營(yíng)商將繼續(xù)在前端網(wǎng)絡(luò)中使用以太網(wǎng)。后端網(wǎng)絡(luò)將更加混雜,因?yàn)檫\(yùn)營(yíng)商會(huì)權(quán)衡熟悉、經(jīng)濟(jì)高效的以太網(wǎng)與專(zhuān)有InfiniBand(功能完善的網(wǎng)絡(luò)通信系統(tǒng))的無(wú)損傳輸能力。一些針對(duì)無(wú)法容忍不可預(yù)測(cè)性能的AI應(yīng)用的運(yùn)營(yíng)商將選擇InfiniBand。其他運(yùn)營(yíng)商將結(jié)合使用以太網(wǎng)和新協(xié)議,以及每個(gè)流擁塞控制,以實(shí)現(xiàn)低延遲無(wú)損流。還有一些運(yùn)營(yíng)商將同時(shí)使用這兩種協(xié)議。
展望未來(lái)
目前,對(duì)于最佳AI集群大小、接口類(lèi)型或高速接口遷移路徑,還沒(méi)有單一的答案。對(duì)于特定運(yùn)營(yíng)商來(lái)說(shuō),正確的選擇取決于多種因素,包括他們計(jì)劃針對(duì)的AI應(yīng)用類(lèi)型、這些工作負(fù)載的帶寬和延遲要求以及無(wú)損傳輸?shù)男枨?。但考慮因素不僅僅是技術(shù)因素。運(yùn)營(yíng)商還需要考慮他們是否計(jì)劃在內(nèi)部支持密集的模型訓(xùn)練工作負(fù)載還是將其外包,他們對(duì)標(biāo)準(zhǔn)化技術(shù)還是專(zhuān)有技術(shù)的偏好,對(duì)不同技術(shù)規(guī)劃圖和供應(yīng)鏈的適應(yīng)程度等等。
無(wú)論運(yùn)營(yíng)商如何回答這些問(wèn)題,有一個(gè)事實(shí)已經(jīng)很清楚:鑒于人工智能應(yīng)用的發(fā)展速度如此之快,適當(dāng)?shù)臏y(cè)試和驗(yàn)證比以往任何時(shí)候都更加重要。驗(yàn)證標(biāo)準(zhǔn)合規(guī)性、互操作性以及定時(shí)和同步的能力,是快速遷移到下一代網(wǎng)絡(luò)接口和架構(gòu)的必備功能。幸運(yùn)的是,測(cè)試和仿真工具正在與人工智能一起發(fā)展。無(wú)論未來(lái)的人工智能數(shù)據(jù)中心是什么樣子,業(yè)界都將準(zhǔn)備好支持它們。
- 美聯(lián)邦貿(mào)易委員會(huì)警告微軟和OpenAI存在反壟斷風(fēng)險(xiǎn)
- NTT Data攜手伙伴探索機(jī)器人和AI未來(lái) 為工廠測(cè)試智能維護(hù)技術(shù)
- 特朗普簽署行政令:給予TikTok“不賣(mài)就禁”75天寬限期
- 美聯(lián)邦貿(mào)易委員會(huì)警告微軟和OpenAI存在反壟斷風(fēng)險(xiǎn)
- NTT Data攜手伙伴探索機(jī)器人和AI未來(lái) 為工廠測(cè)試智能維護(hù)技術(shù)
- 特朗普簽署行政令:給予TikTok“不賣(mài)就禁”75天寬限期
- 中國(guó)移動(dòng)綠色多頻段基站天線產(chǎn)品集采:規(guī)模為27.24萬(wàn)面
- 工信部謝存:2025年力爭(zhēng)全面實(shí)現(xiàn)電信業(yè)務(wù)線上辦
- 工信部陶青:1-11月我國(guó)云計(jì)算、大數(shù)據(jù)服務(wù)業(yè)務(wù)收入同比增長(zhǎng)10.5%
- 工信部張?jiān)泼鳎?G+工業(yè)互聯(lián)網(wǎng)全國(guó)建設(shè)項(xiàng)目數(shù)超1.7萬(wàn)個(gè)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。