中國電信韋樂平:大模型需要大網(wǎng)絡(luò) 超級以太網(wǎng)必將成為市場主流

4月10日消息 在今天召開的“2024年云網(wǎng)智聯(lián)大會”上,中國電信集團(tuán)科技委主任韋樂平應(yīng)邀作了題為《人工智能時代大模型的發(fā)展與思考》的主題報告,詳盡分享了他對于人工智能/大模型的最新觀點。

在韋樂平看來,人工智能有三大要素,而大模型則可以分為三個層次;大模型的核心價值在于應(yīng)用,基礎(chǔ)大模型將會是一場慘烈的淘汰賽,未來三到五年,將可能會收斂到數(shù)家;在大模型應(yīng)用價值凸顯的當(dāng)下,小模型的作用也不容輕視。

韋樂平指出,大模型需要大算力,大算力需要大集群,大集群則需要大網(wǎng)絡(luò)。產(chǎn)業(yè)界不能把目光只停留在以GPU為代表的算力上,作為算力載體的智算中心,網(wǎng)絡(luò)同樣至關(guān)重要。

韋樂平強(qiáng)調(diào),在智算中心網(wǎng)絡(luò)技術(shù)演進(jìn)路徑中,除了在當(dāng)前近乎壟斷的InfiniBand,以及在快速成長的UEC(超以太網(wǎng))以外,PCIe、CXL和芯片光互連技術(shù)一樣值得關(guān)注。韋樂平判斷,作為當(dāng)前性能最佳的聯(lián)網(wǎng)技術(shù),InfiniBand雖然產(chǎn)業(yè)封閉且價格昂貴,但它仍將維系高端大模型訓(xùn)練市場的相當(dāng)份額;而隨著標(biāo)準(zhǔn)成熟與產(chǎn)品落地,擁有強(qiáng)大產(chǎn)業(yè)生態(tài)的UEC技術(shù)在性價比方面將逐漸趕超InfiniBand,預(yù)計到2027年成為市場主流。

AGI長路漫漫:客觀理性看待發(fā)展水平

對于人工智能的三大要素,韋樂平有著自己的觀點。

算力是人工智能的基礎(chǔ),算力的載體是芯片,芯片水平?jīng)Q定了AI計算能力物理上限,關(guān)鍵是GPU及其應(yīng)用生態(tài)。高端芯片制程,特別是GPU及其應(yīng)用生態(tài)是我國AI發(fā)展的最大短板。

數(shù)據(jù)是人工智能的根本,數(shù)據(jù)要素是數(shù)字經(jīng)濟(jì)的核心生產(chǎn)要素和重要經(jīng)濟(jì)資源。數(shù)據(jù)的規(guī)模、質(zhì)量和治理體系決定了AI應(yīng)用的效果和質(zhì)量,數(shù)據(jù)的可用數(shù)量和質(zhì)量也同樣是短板。

算法是人工智能的靈魂。算力離開了算法,只是一個巨大的高耗能電熱器,基于深度學(xué)習(xí)的高效智能算法是發(fā)揮算力作用,規(guī)避低效蠻力計算的必然方向。

人工智能的三要素相對應(yīng),韋樂平愿意將大模型分為三個層次:

第一層次是任務(wù)模型,模型就是應(yīng)用,比如圍棋、人臉識別等單一應(yīng)用,得益于數(shù)據(jù)量的優(yōu)勢,我國在此領(lǐng)域處于領(lǐng)先地位;第二層次是領(lǐng)域模型(行業(yè)模型),它能夠完成多領(lǐng)域諸多任務(wù),開發(fā)者只要在基礎(chǔ)大模型上根據(jù)具體任務(wù)做微調(diào)即可;第三層次是認(rèn)知模型AGI,即通用人工智能,能看、能聽、能思考、能規(guī)劃,能真正實現(xiàn)類人的智慧,而這長路漫漫。

大模型應(yīng)用價值凸顯 小模型也不容輕視

韋樂平認(rèn)為,大模型具有三點基本特征。

首先是大算力、大參數(shù)、大數(shù)據(jù)、大智能。算力越大、參數(shù)越多、數(shù)據(jù)越多,智能就越高,越能解決復(fù)雜的任務(wù)。“行業(yè)模型,需要百億至千億的參數(shù);基礎(chǔ)通用大模型,需要千億至萬億參數(shù);全球領(lǐng)先的基礎(chǔ)通用大模型,則需數(shù)萬億至數(shù)十萬億級的參數(shù)。”

其次是一定的通用性,起碼具備領(lǐng)域型模型特點,能完成多領(lǐng)域的諸多任務(wù),非單一任務(wù)。

第三是神奇的涌現(xiàn)性。當(dāng)算力和模型參數(shù)足夠大,訓(xùn)練到一定程度后,能夠突然出現(xiàn)預(yù)料之外的某種能力,產(chǎn)生邏輯自恰的類人語言表達(dá),這種能力會達(dá)到乃至超過人類某方面的智能。

韋樂平表示,大模型特別是認(rèn)知模型AGI,雖然應(yīng)用前景非常美好,但存在著高技術(shù)、高投入、高能耗、高風(fēng)險。“未來三五年以后,世界上就五六個基礎(chǔ)大模型能活下來。”但在此之上的行業(yè)大模型將層出不窮,行業(yè)應(yīng)用將成為各類大模型真正體現(xiàn)價值和商業(yè)落地的地方。

韋樂平同時提醒,在大模型應(yīng)用價值凸顯的當(dāng)下,小模型的作用也不容輕視。因為大模型訓(xùn)練所需要的技術(shù)、算力、語料以及成本很高,卻通而不專,在面向具體運行環(huán)境的適應(yīng)性和經(jīng)濟(jì)性方面,往往小模型更加實用,省錢、省力、省時間。

目前已經(jīng)有多種小模型產(chǎn)品問世,從技術(shù)角度看,有兩大方向。一是知識蒸餾,主要對大模型進(jìn)行裁剪、優(yōu)化,使訓(xùn)練好的模型的體積和尺寸更小,成本更低、更適合具體部署環(huán)境的實際需求;其二是微型機(jī)器學(xué)習(xí)(TinyML),該方向旨在低于1mw功耗下(如紐扣電池)運行機(jī)器學(xué)習(xí),在成本和功率受限系統(tǒng)中完成機(jī)器學(xué)習(xí)任務(wù),是物聯(lián)網(wǎng)領(lǐng)域AI的主要方向之一。

大模型需要大網(wǎng)絡(luò):UEC必將成為市場主流

大模型的盡頭在哪?算力、能源?但在韋樂平看來,網(wǎng)絡(luò)的影響因素同樣難以評估。

韋樂平指出,大模型需要大算力,大算力需要大集群,當(dāng)前的數(shù)據(jù)中心很難滿足大集群算力的要求,一定要重新建設(shè)智算中心。以中國電信在上海投產(chǎn)的“臨港國產(chǎn)萬卡算力池”為例,其投資規(guī)模超過20億,單機(jī)柜能耗達(dá)到了4.8萬瓦,常規(guī)IDC很難滿足需求。

另外,主要由GPU服務(wù)器聯(lián)網(wǎng)構(gòu)成的智算中心需要完全不同的網(wǎng)絡(luò)架構(gòu)。當(dāng)大模型訓(xùn)練時,并行計算節(jié)點越多,通信效率越重要,智算網(wǎng)絡(luò)性能成為集群算力提升的關(guān)鍵。“智算中心網(wǎng)絡(luò)要求很特殊,需要高帶寬、零丟包、超低時延、高可用性,月級零故障。”

網(wǎng)絡(luò)技術(shù)角度,從目前情況來看,英偉達(dá)主導(dǎo)的InfiniBand是市場主流選擇,但I(xiàn)nfiniBand在產(chǎn)業(yè)開發(fā)性、部署成本方面非常不友好。韋樂平認(rèn)為,增強(qiáng)無損以太網(wǎng)(例如超以太網(wǎng)UEC)將逐漸成為市場主流選擇,UEC通過重構(gòu)高擴(kuò)展、高穩(wěn)定、高可靠的以太網(wǎng)堆棧,有望在性價比方面媲美InfiniBand。

韋樂平看好UEC最重要原因還是生態(tài)。“產(chǎn)業(yè)鏈很重要,技術(shù)高低不一定;拿ATM跟以太網(wǎng)相比,ATM比以太網(wǎng)性能高多了,為什么不行?因為(以太網(wǎng))產(chǎn)業(yè)鏈比它大了幾十倍。”

當(dāng)然,除了InfiniBand和UEC,韋樂平還建議關(guān)注PCIe、芯片光互連和CXL等連接技術(shù)。PCIe可以為復(fù)雜的生成式人工智能擴(kuò)展距離、簡化系統(tǒng)架構(gòu)、減少功耗;芯片光互連可以大幅提升計算集群的擴(kuò)展性(超100T),且功耗很低,物理尺寸也更??;而CXL不僅可以繼續(xù)用來增大服務(wù)器的內(nèi)存規(guī)模,而且將越來越多的用來承擔(dān)生成式人工智能訓(xùn)練的加速器作用。

單集群、單體智算中心的算力總歸是有極限的,對于超大參數(shù)大模型訓(xùn)練而言,在大范圍內(nèi)由多個物理集群構(gòu)成一個超級邏輯集群進(jìn)行聯(lián)合訓(xùn)練,將會成為必然選擇。

也就是說,如何解決不同集群間參數(shù)的傳遞和同步,以及大量數(shù)據(jù)跨群跨域跨云傳輸?shù)牟煌瑫r延導(dǎo)致的訓(xùn)練速度減慢的問題。對此,韋樂平認(rèn)為,根據(jù)不同的訓(xùn)練任務(wù)和場景,可以采用數(shù)據(jù)并行、流水線并行、張量并行等多種不同策略,但這些都不能從根本上解決。“根本解決還要依靠空芯光纖,直接在物理層將時延降低33%。”

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-04-10
中國電信韋樂平:大模型需要大網(wǎng)絡(luò) 超級以太網(wǎng)必將成為市場主流
中國電信韋樂平:大模型需要大網(wǎng)絡(luò) 超級以太網(wǎng)必將成為市場主流,C114訊 4月10日消息 在今天召開的2024年云網(wǎng)智聯(lián)大會上,中國電信集團(tuán)科技委主任韋樂平應(yīng)邀作

長按掃碼 閱讀全文