浪潮信息彭震:激發(fā)創(chuàng)新活力,加速AI落地

浪潮信息董事長(zhǎng)彭震在生態(tài)伙伴大會(huì)IPF2024上表示,發(fā)展人工智能+,要堅(jiān)持“以應(yīng)用為導(dǎo)向,以系統(tǒng)為核心”,著重激發(fā)創(chuàng)新活力、拓展創(chuàng)新路徑、加速創(chuàng)新落地,推動(dòng)AI成為千行百業(yè)的生產(chǎn)力。

人工智能給整個(gè)社會(huì)生產(chǎn)力帶來了根本性的改變。人工智能改變了生產(chǎn)力三要素,使得勞動(dòng)者不僅僅是人,而變成了“人+人工智能”,生產(chǎn)資料從傳統(tǒng)意義上的有形要素改變成無形,也就是數(shù)據(jù)。勞動(dòng)工具發(fā)生了巨大變化,過去的工具是人的肢體延伸,但是在人工智能時(shí)代,工具成為大腦的延伸,也會(huì)產(chǎn)生智慧。

根據(jù)權(quán)威機(jī)構(gòu)的預(yù)測(cè),AI在2023年到2030年間累計(jì)對(duì)GDP產(chǎn)生的影響將是蒸汽機(jī)在1830年至1910年間對(duì)整個(gè)經(jīng)濟(jì)影響的4.5倍。今天我們感覺AI沒有那么大的顛覆性,是因?yàn)锳I還在快速的向人類學(xué)習(xí),當(dāng)AI的智慧超越了人類,我們就會(huì)發(fā)現(xiàn)AI將以迅雷不及掩耳之勢(shì)改變世界,而且這種改變是不可逆的。

發(fā)展AI,以應(yīng)用為導(dǎo)向,以系統(tǒng)為核心

推進(jìn)應(yīng)用,發(fā)展AI產(chǎn)業(yè),要把握住產(chǎn)業(yè)的客觀規(guī)律。首先,應(yīng)用是AI最重要的要素,應(yīng)用將會(huì)給AI帶來巨大的牽引力。其次,AI有三個(gè)要素構(gòu)成,算法、算力和數(shù)據(jù),AI的突破是三個(gè)要素系統(tǒng)發(fā)展的結(jié)果,未來的突破要從這三個(gè)方向一起發(fā)力,而不僅僅聚焦在某一方面。算法是驅(qū)動(dòng)應(yīng)用發(fā)展的直接動(dòng)力。大模型算法的創(chuàng)新趨勢(shì)主要是擴(kuò)大規(guī)模和MoE混合專家系統(tǒng)的采用。千億參數(shù)是大模型智能涌現(xiàn)的臨界點(diǎn),而且參數(shù)規(guī)模越大,涌現(xiàn)的能力越大,在多個(gè)垂直領(lǐng)域開始超越人類?;旌蠈<蚁到y(tǒng)是把不同的專家系統(tǒng)組合起來,統(tǒng)一調(diào)度形成更好的智能涌現(xiàn)。模型規(guī)模從千億走向萬億,單一模型到混合專家系統(tǒng),越來越復(fù)雜,需要的算力規(guī)模越來越大。

算力是AI算法創(chuàng)新的工具,算法的需求拉動(dòng)了算力的創(chuàng)新。算力的發(fā)展不僅僅源于芯片,更源自系統(tǒng)創(chuàng)新。從2017年Transformer架構(gòu)誕生至今,按照摩爾定律推算,芯片性能只提升8倍,但是通過系統(tǒng)創(chuàng)新,AI計(jì)算的性能提升超過1000倍。系統(tǒng)創(chuàng)新涉及方方面面,例如算法精度、計(jì)算架構(gòu)、系統(tǒng)互連等。算法層面,過去大模型精度最開始是FP32,到現(xiàn)在FP8,未來會(huì)走向FP4,算力效率不斷翻番增長(zhǎng)。計(jì)算架構(gòu)層面,從簡(jiǎn)單的CUDA核心到Transformer引擎,張量計(jì)算變成多維矩陣計(jì)算,整個(gè)計(jì)算體系針對(duì)矩陣計(jì)算進(jìn)行了優(yōu)化,讓整體性能提升了1000倍。系統(tǒng)互連層面,模型參數(shù)量越來越大,萬卡成為AI系統(tǒng)設(shè)計(jì)的起點(diǎn),超大規(guī)模算力平臺(tái)的效率變得越來越重要,無論是系統(tǒng)內(nèi)互連還是節(jié)點(diǎn)間的互連都直接關(guān)系平臺(tái)效率。GPU間的點(diǎn)對(duì)點(diǎn)通信帶寬從2017年32GB/s,到今天的1800GB/s,提升了56倍,有效降低了節(jié)點(diǎn)內(nèi)通信開銷。對(duì)于節(jié)點(diǎn)間互連,超級(jí)AI以太網(wǎng)誕生,相比傳統(tǒng)以太網(wǎng),讓訓(xùn)練效率提高了1.6倍。

數(shù)據(jù)扮演的角色越來越重要,有人說誰掌握數(shù)據(jù),誰就掌握了AI智慧涌現(xiàn)的重要話語(yǔ)權(quán)。隨著高質(zhì)量數(shù)據(jù)的規(guī)模增長(zhǎng),模型的精度也會(huì)指數(shù)級(jí)的提高。目前訓(xùn)練數(shù)據(jù)量越來越大,人類所產(chǎn)生的已知數(shù)據(jù)對(duì)大模型來講遠(yuǎn)遠(yuǎn)不夠。通過AI技術(shù)合成數(shù)據(jù)成為一個(gè)主要的趨勢(shì)。可以說,在AI時(shí)代要去掌握業(yè)務(wù)的話語(yǔ)權(quán),就要掌握數(shù)據(jù),掌握數(shù)據(jù)處理能力,掌握數(shù)據(jù)的創(chuàng)新能力。

總之,發(fā)展人工智能+,要以應(yīng)用為導(dǎo)向,以系統(tǒng)為核心,實(shí)現(xiàn)算法、算力、數(shù)據(jù)三要素的協(xié)同發(fā)展。落實(shí)到具體實(shí)踐中,就是圍繞活力、路徑、落地開展創(chuàng)新,以開源開放、多元多模激發(fā)創(chuàng)新活力,以系統(tǒng)創(chuàng)新、全局優(yōu)化拓展創(chuàng)新路徑,以協(xié)同共生、開放共贏的生態(tài)加速創(chuàng)新落地,從而實(shí)現(xiàn)AI創(chuàng)新與AI應(yīng)用協(xié)同發(fā)展。

開源開放,多元多模,激發(fā)創(chuàng)新活力

開源開放是創(chuàng)新活力的源泉,在互聯(lián)網(wǎng)時(shí)代,開源開放打破了過去的技術(shù)壟斷,使得更多人參與到開源社區(qū),貢獻(xiàn)代碼,貢獻(xiàn)想法,共謀發(fā)展。

在AI時(shí)代,開源開放會(huì)起到更大的、更積極的促進(jìn)作用。芯片領(lǐng)域,90%以上的高端芯片廠商都支持了OAM開放規(guī)范,不同的芯片可以在一臺(tái)機(jī)器上運(yùn)行,極大的降低了產(chǎn)業(yè)創(chuàng)新的難度,降低了技術(shù)創(chuàng)新試錯(cuò)成本和適配成本,促進(jìn)了算力創(chuàng)新。大模型領(lǐng)域,LLaMA2開源平臺(tái)被眾多大模型算法所引用,2/3的大型語(yǔ)言模型都選擇了開源。開源開放促進(jìn)了整個(gè)產(chǎn)業(yè)的繁榮發(fā)展。

開源開放使得AI領(lǐng)域迸發(fā)出了大量的創(chuàng)新企業(yè)。算力多元化,CPU、GPU、TPU、NPU等各種各樣的芯片不斷出現(xiàn),大模型也層出不窮,形成了多元競(jìng)爭(zhēng)、百模競(jìng)秀的良好局面。這不是重復(fù)造車,這是對(duì)產(chǎn)業(yè)極大的促進(jìn)。從歷史來看,很多技術(shù)、文明誕生的初期,都是百家爭(zhēng)鳴、百花齊放。產(chǎn)業(yè)發(fā)展初期有很多家企業(yè)在創(chuàng)新,隨著產(chǎn)業(yè)發(fā)展,企業(yè)會(huì)逐漸聚合收攏,與此同時(shí),產(chǎn)業(yè)規(guī)模將會(huì)越來越大,逐步擴(kuò)張,整個(gè)過程呈現(xiàn)一個(gè)雙漏斗形狀。通用人工智能發(fā)展初期,應(yīng)該是百舸爭(zhēng)流、大浪淘沙,在市場(chǎng)競(jìng)爭(zhēng)中不斷完善和發(fā)展,最終通過市場(chǎng)之手、用戶之手來選擇。

系統(tǒng)創(chuàng)新,全局優(yōu)化,拓展創(chuàng)新路徑

從具體實(shí)踐看,千億參數(shù)是大模型智能涌現(xiàn)的門檻,萬卡是AI系統(tǒng)設(shè)計(jì)的起點(diǎn)。這對(duì)目前系統(tǒng)的算法效率、計(jì)算資源、互連帶寬和能效提出了不小的挑戰(zhàn)。那么面對(duì)這些挑戰(zhàn),系統(tǒng)創(chuàng)新、全局優(yōu)化具體應(yīng)該如何展開實(shí)施呢?

首先,在算法效率層面,很多大模型平臺(tái)的利用率都很低,大部分算力被浪費(fèi)掉了。所以,一個(gè)大規(guī)模計(jì)算系統(tǒng)中,互連、算法等關(guān)系整體效率的工作越來越重要。我們?cè)?jīng)在一個(gè)芯片平臺(tái)上做大模型訓(xùn)練,發(fā)現(xiàn)平臺(tái)的互連帶寬非常之低,為了克服這樣的問題,我們?cè)谒惴▽用孀隽舜罅康牟⑿袃?yōu)化,包括優(yōu)化器參數(shù)并行、數(shù)據(jù)并行、流水并行等,降低了對(duì)帶寬的依賴,讓整個(gè)平臺(tái)效率提升了33%。

其次,通過硬件重構(gòu)和軟件定義解決資源不足的問題。去年我們發(fā)布了融合架構(gòu)3.0,通過高速互連總線實(shí)現(xiàn)各類資源解耦,包括CPU和GPU的解耦,當(dāng)GPU算力不足的時(shí)候,我們可以做到單節(jié)點(diǎn)16卡、32卡,直至達(dá)到CPU與GPU的最佳配比。這是一個(gè)全新的架構(gòu),打破了以芯片為核心的單機(jī)系統(tǒng)設(shè)計(jì)思路,是以萬卡集群做為設(shè)計(jì)出發(fā)點(diǎn)的、以系統(tǒng)為核心的全新架構(gòu)。當(dāng)然,有了如此復(fù)雜的系統(tǒng),就要開發(fā)相應(yīng)的感知調(diào)度軟件,包括業(yè)務(wù)感知、資源自動(dòng)調(diào)度和彈性擴(kuò)展,這就是軟件定義。

再次,互連會(huì)變得越來越重要。過去AI的計(jì)算模式叫AI Factory,是一個(gè)單一任務(wù)的集群,現(xiàn)在出現(xiàn)了一種新的混合模式AI Cloud。面向AI Factory的專用網(wǎng)絡(luò)無法支持AI Cloud模式下多用戶、多任務(wù)、多租戶需求,因而越來越多的客戶將會(huì)采用超級(jí)AI以太網(wǎng)。超級(jí)AI以太網(wǎng)在整個(gè)網(wǎng)絡(luò)底層采用了亂序重組的技術(shù),通過智能網(wǎng)卡推動(dòng)整個(gè)高速網(wǎng)絡(luò)的效率提升,因而超級(jí)AI以太網(wǎng)有著很典型的特點(diǎn),就是“交換機(jī)+智能網(wǎng)卡”的高效整合。

最后,萬卡集群中節(jié)點(diǎn)內(nèi)的P2P高速互連距離是非常有限的,最多能做到1-2個(gè)機(jī)柜之間的高速互連,所以,AI計(jì)算必然走向高密度,機(jī)柜供電就要從12-16千瓦走到120千瓦,達(dá)到風(fēng)冷極限,散熱將逐漸走向液冷。AI計(jì)算、液冷和整機(jī)柜的結(jié)合將成為未來趨勢(shì),浪潮信息將持續(xù)推動(dòng)液冷組件標(biāo)準(zhǔn)化、規(guī)?;?、產(chǎn)業(yè)化,最終實(shí)現(xiàn)“風(fēng)液同價(jià)”。

協(xié)同共生,開放共贏,加速創(chuàng)新落地

我們建立了元腦平臺(tái)融合左手伙伴和右手伙伴,推動(dòng)產(chǎn)業(yè)AI化??偨Y(jié)過去元腦生態(tài)的發(fā)展,我們找到了關(guān)鍵路徑,這個(gè)既是元腦生態(tài)工作的經(jīng)驗(yàn)總結(jié),也是我們?cè)谧陨碇悄芑D(zhuǎn)型工作中的體會(huì),那就是要研制AI的開發(fā)工具,對(duì)伙伴進(jìn)行工具賦能。

我們建立了企業(yè)大模型開發(fā)平臺(tái),通過工具賦能千行百業(yè)。算法、數(shù)據(jù)等領(lǐng)域的左手合作伙伴可以將新的技術(shù)接入到平臺(tái)里,為所有生態(tài)合作伙伴所用;ISV/SI等右手合作伙伴可以在平臺(tái)上選擇各類快速開發(fā)工具;用戶獲得了一個(gè)強(qiáng)有力的智能化轉(zhuǎn)型加速器。而且這個(gè)平臺(tái)支持多元多模,創(chuàng)新實(shí)現(xiàn)了上層模型算法和下層基礎(chǔ)設(shè)施的邏輯解耦,即便伙伴和客戶要更換算力平臺(tái)或者模型,都非常方便,試錯(cuò)成本極低。

結(jié)語(yǔ)

AI可能是我們?nèi)松忻媾R的最大的產(chǎn)業(yè)機(jī)遇。這個(gè)機(jī)遇是顛覆性的,我們希望能夠和合作伙伴一起通力協(xié)作,面對(duì)這樣一個(gè)百年難遇的人生機(jī)遇,攜手共同努力,邁向AI的新時(shí)代。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )