中國電信韋樂平:大模型需要大網絡 超級以太網必將成為市場主流

4月10日消息 在今天召開的“2024年云網智聯(lián)大會”上,中國電信集團科技委主任韋樂平應邀作了題為《人工智能時代大模型的發(fā)展與思考》的主題報告,詳盡分享了他對于人工智能/大模型的最新觀點。

在韋樂平看來,人工智能有三大要素,而大模型則可以分為三個層次;大模型的核心價值在于應用,基礎大模型將會是一場慘烈的淘汰賽,未來三到五年,將可能會收斂到數家;在大模型應用價值凸顯的當下,小模型的作用也不容輕視。

韋樂平指出,大模型需要大算力,大算力需要大集群,大集群則需要大網絡。產業(yè)界不能把目光只停留在以GPU為代表的算力上,作為算力載體的智算中心,網絡同樣至關重要。

韋樂平強調,在智算中心網絡技術演進路徑中,除了在當前近乎壟斷的InfiniBand,以及在快速成長的UEC(超以太網)以外,PCIe、CXL和芯片光互連技術一樣值得關注。韋樂平判斷,作為當前性能最佳的聯(lián)網技術,InfiniBand雖然產業(yè)封閉且價格昂貴,但它仍將維系高端大模型訓練市場的相當份額;而隨著標準成熟與產品落地,擁有強大產業(yè)生態(tài)的UEC技術在性價比方面將逐漸趕超InfiniBand,預計到2027年成為市場主流。

AGI長路漫漫:客觀理性看待發(fā)展水平

對于人工智能的三大要素,韋樂平有著自己的觀點。

算力是人工智能的基礎,算力的載體是芯片,芯片水平決定了AI計算能力物理上限,關鍵是GPU及其應用生態(tài)。高端芯片制程,特別是GPU及其應用生態(tài)是我國AI發(fā)展的最大短板。

數據是人工智能的根本,數據要素是數字經濟的核心生產要素和重要經濟資源。數據的規(guī)模、質量和治理體系決定了AI應用的效果和質量,數據的可用數量和質量也同樣是短板。

算法是人工智能的靈魂。算力離開了算法,只是一個巨大的高耗能電熱器,基于深度學習的高效智能算法是發(fā)揮算力作用,規(guī)避低效蠻力計算的必然方向。

人工智能的三要素相對應,韋樂平愿意將大模型分為三個層次:

第一層次是任務模型,模型就是應用,比如圍棋、人臉識別等單一應用,得益于數據量的優(yōu)勢,我國在此領域處于領先地位;第二層次是領域模型(行業(yè)模型),它能夠完成多領域諸多任務,開發(fā)者只要在基礎大模型上根據具體任務做微調即可;第三層次是認知模型AGI,即通用人工智能,能看、能聽、能思考、能規(guī)劃,能真正實現(xiàn)類人的智慧,而這長路漫漫。

大模型應用價值凸顯 小模型也不容輕視

韋樂平認為,大模型具有三點基本特征。

首先是大算力、大參數、大數據、大智能。算力越大、參數越多、數據越多,智能就越高,越能解決復雜的任務。“行業(yè)模型,需要百億至千億的參數;基礎通用大模型,需要千億至萬億參數;全球領先的基礎通用大模型,則需數萬億至數十萬億級的參數。”

其次是一定的通用性,起碼具備領域型模型特點,能完成多領域的諸多任務,非單一任務。

第三是神奇的涌現(xiàn)性。當算力和模型參數足夠大,訓練到一定程度后,能夠突然出現(xiàn)預料之外的某種能力,產生邏輯自恰的類人語言表達,這種能力會達到乃至超過人類某方面的智能。

韋樂平表示,大模型特別是認知模型AGI,雖然應用前景非常美好,但存在著高技術、高投入、高能耗、高風險。“未來三五年以后,世界上就五六個基礎大模型能活下來。”但在此之上的行業(yè)大模型將層出不窮,行業(yè)應用將成為各類大模型真正體現(xiàn)價值和商業(yè)落地的地方。

韋樂平同時提醒,在大模型應用價值凸顯的當下,小模型的作用也不容輕視。因為大模型訓練所需要的技術、算力、語料以及成本很高,卻通而不專,在面向具體運行環(huán)境的適應性和經濟性方面,往往小模型更加實用,省錢、省力、省時間。

目前已經有多種小模型產品問世,從技術角度看,有兩大方向。一是知識蒸餾,主要對大模型進行裁剪、優(yōu)化,使訓練好的模型的體積和尺寸更小,成本更低、更適合具體部署環(huán)境的實際需求;其二是微型機器學習(TinyML),該方向旨在低于1mw功耗下(如紐扣電池)運行機器學習,在成本和功率受限系統(tǒng)中完成機器學習任務,是物聯(lián)網領域AI的主要方向之一。

大模型需要大網絡:UEC必將成為市場主流

大模型的盡頭在哪?算力、能源?但在韋樂平看來,網絡的影響因素同樣難以評估。

韋樂平指出,大模型需要大算力,大算力需要大集群,當前的數據中心很難滿足大集群算力的要求,一定要重新建設智算中心。以中國電信在上海投產的“臨港國產萬卡算力池”為例,其投資規(guī)模超過20億,單機柜能耗達到了4.8萬瓦,常規(guī)IDC很難滿足需求。

另外,主要由GPU服務器聯(lián)網構成的智算中心需要完全不同的網絡架構。當大模型訓練時,并行計算節(jié)點越多,通信效率越重要,智算網絡性能成為集群算力提升的關鍵。“智算中心網絡要求很特殊,需要高帶寬、零丟包、超低時延、高可用性,月級零故障。”

網絡技術角度,從目前情況來看,英偉達主導的InfiniBand是市場主流選擇,但InfiniBand在產業(yè)開發(fā)性、部署成本方面非常不友好。韋樂平認為,增強無損以太網(例如超以太網UEC)將逐漸成為市場主流選擇,UEC通過重構高擴展、高穩(wěn)定、高可靠的以太網堆棧,有望在性價比方面媲美InfiniBand。

韋樂平看好UEC最重要原因還是生態(tài)。“產業(yè)鏈很重要,技術高低不一定;拿ATM跟以太網相比,ATM比以太網性能高多了,為什么不行?因為(以太網)產業(yè)鏈比它大了幾十倍。”

當然,除了InfiniBand和UEC,韋樂平還建議關注PCIe、芯片光互連和CXL等連接技術。PCIe可以為復雜的生成式人工智能擴展距離、簡化系統(tǒng)架構、減少功耗;芯片光互連可以大幅提升計算集群的擴展性(超100T),且功耗很低,物理尺寸也更?。欢鳦XL不僅可以繼續(xù)用來增大服務器的內存規(guī)模,而且將越來越多的用來承擔生成式人工智能訓練的加速器作用。

單集群、單體智算中心的算力總歸是有極限的,對于超大參數大模型訓練而言,在大范圍內由多個物理集群構成一個超級邏輯集群進行聯(lián)合訓練,將會成為必然選擇。

也就是說,如何解決不同集群間參數的傳遞和同步,以及大量數據跨群跨域跨云傳輸的不同時延導致的訓練速度減慢的問題。對此,韋樂平認為,根據不同的訓練任務和場景,可以采用數據并行、流水線并行、張量并行等多種不同策略,但這些都不能從根本上解決。“根本解決還要依靠空芯光纖,直接在物理層將時延降低33%。”

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2024-04-10
中國電信韋樂平:大模型需要大網絡 超級以太網必將成為市場主流
中國電信韋樂平:大模型需要大網絡 超級以太網必將成為市場主流,C114訊 4月10日消息 在今天召開的2024年云網智聯(lián)大會上,中國電信集團科技委主任韋樂平應邀作

長按掃碼 閱讀全文