浪潮信息彭震:激發(fā)創(chuàng)新活力,加速AI落地

浪潮信息董事長彭震在生態(tài)伙伴大會IPF2024上表示,發(fā)展人工智能+,要堅持“以應用為導向,以系統(tǒng)為核心”,著重激發(fā)創(chuàng)新活力、拓展創(chuàng)新路徑、加速創(chuàng)新落地,推動AI成為千行百業(yè)的生產(chǎn)力。

人工智能給整個社會生產(chǎn)力帶來了根本性的改變。人工智能改變了生產(chǎn)力三要素,使得勞動者不僅僅是人,而變成了“人+人工智能”,生產(chǎn)資料從傳統(tǒng)意義上的有形要素改變成無形,也就是數(shù)據(jù)。勞動工具發(fā)生了巨大變化,過去的工具是人的肢體延伸,但是在人工智能時代,工具成為大腦的延伸,也會產(chǎn)生智慧。

根據(jù)權(quán)威機構(gòu)的預測,AI在2023年到2030年間累計對GDP產(chǎn)生的影響將是蒸汽機在1830年至1910年間對整個經(jīng)濟影響的4.5倍。今天我們感覺AI沒有那么大的顛覆性,是因為AI還在快速的向人類學習,當AI的智慧超越了人類,我們就會發(fā)現(xiàn)AI將以迅雷不及掩耳之勢改變世界,而且這種改變是不可逆的。

發(fā)展AI,以應用為導向,以系統(tǒng)為核心

推進應用,發(fā)展AI產(chǎn)業(yè),要把握住產(chǎn)業(yè)的客觀規(guī)律。首先,應用是AI最重要的要素,應用將會給AI帶來巨大的牽引力。其次,AI有三個要素構(gòu)成,算法、算力和數(shù)據(jù),AI的突破是三個要素系統(tǒng)發(fā)展的結(jié)果,未來的突破要從這三個方向一起發(fā)力,而不僅僅聚焦在某一方面。算法是驅(qū)動應用發(fā)展的直接動力。大模型算法的創(chuàng)新趨勢主要是擴大規(guī)模和MoE混合專家系統(tǒng)的采用。千億參數(shù)是大模型智能涌現(xiàn)的臨界點,而且參數(shù)規(guī)模越大,涌現(xiàn)的能力越大,在多個垂直領域開始超越人類?;旌蠈<蚁到y(tǒng)是把不同的專家系統(tǒng)組合起來,統(tǒng)一調(diào)度形成更好的智能涌現(xiàn)。模型規(guī)模從千億走向萬億,單一模型到混合專家系統(tǒng),越來越復雜,需要的算力規(guī)模越來越大。

算力是AI算法創(chuàng)新的工具,算法的需求拉動了算力的創(chuàng)新。算力的發(fā)展不僅僅源于芯片,更源自系統(tǒng)創(chuàng)新。從2017年Transformer架構(gòu)誕生至今,按照摩爾定律推算,芯片性能只提升8倍,但是通過系統(tǒng)創(chuàng)新,AI計算的性能提升超過1000倍。系統(tǒng)創(chuàng)新涉及方方面面,例如算法精度、計算架構(gòu)、系統(tǒng)互連等。算法層面,過去大模型精度最開始是FP32,到現(xiàn)在FP8,未來會走向FP4,算力效率不斷翻番增長。計算架構(gòu)層面,從簡單的CUDA核心到Transformer引擎,張量計算變成多維矩陣計算,整個計算體系針對矩陣計算進行了優(yōu)化,讓整體性能提升了1000倍。系統(tǒng)互連層面,模型參數(shù)量越來越大,萬卡成為AI系統(tǒng)設計的起點,超大規(guī)模算力平臺的效率變得越來越重要,無論是系統(tǒng)內(nèi)互連還是節(jié)點間的互連都直接關(guān)系平臺效率。GPU間的點對點通信帶寬從2017年32GB/s,到今天的1800GB/s,提升了56倍,有效降低了節(jié)點內(nèi)通信開銷。對于節(jié)點間互連,超級AI以太網(wǎng)誕生,相比傳統(tǒng)以太網(wǎng),讓訓練效率提高了1.6倍。

數(shù)據(jù)扮演的角色越來越重要,有人說誰掌握數(shù)據(jù),誰就掌握了AI智慧涌現(xiàn)的重要話語權(quán)。隨著高質(zhì)量數(shù)據(jù)的規(guī)模增長,模型的精度也會指數(shù)級的提高。目前訓練數(shù)據(jù)量越來越大,人類所產(chǎn)生的已知數(shù)據(jù)對大模型來講遠遠不夠。通過AI技術(shù)合成數(shù)據(jù)成為一個主要的趨勢??梢哉f,在AI時代要去掌握業(yè)務的話語權(quán),就要掌握數(shù)據(jù),掌握數(shù)據(jù)處理能力,掌握數(shù)據(jù)的創(chuàng)新能力。

總之,發(fā)展人工智能+,要以應用為導向,以系統(tǒng)為核心,實現(xiàn)算法、算力、數(shù)據(jù)三要素的協(xié)同發(fā)展。落實到具體實踐中,就是圍繞活力、路徑、落地開展創(chuàng)新,以開源開放、多元多模激發(fā)創(chuàng)新活力,以系統(tǒng)創(chuàng)新、全局優(yōu)化拓展創(chuàng)新路徑,以協(xié)同共生、開放共贏的生態(tài)加速創(chuàng)新落地,從而實現(xiàn)AI創(chuàng)新與AI應用協(xié)同發(fā)展。

開源開放,多元多模,激發(fā)創(chuàng)新活力

開源開放是創(chuàng)新活力的源泉,在互聯(lián)網(wǎng)時代,開源開放打破了過去的技術(shù)壟斷,使得更多人參與到開源社區(qū),貢獻代碼,貢獻想法,共謀發(fā)展。

在AI時代,開源開放會起到更大的、更積極的促進作用。芯片領域,90%以上的高端芯片廠商都支持了OAM開放規(guī)范,不同的芯片可以在一臺機器上運行,極大的降低了產(chǎn)業(yè)創(chuàng)新的難度,降低了技術(shù)創(chuàng)新試錯成本和適配成本,促進了算力創(chuàng)新。大模型領域,LLaMA2開源平臺被眾多大模型算法所引用,2/3的大型語言模型都選擇了開源。開源開放促進了整個產(chǎn)業(yè)的繁榮發(fā)展。

開源開放使得AI領域迸發(fā)出了大量的創(chuàng)新企業(yè)。算力多元化,CPU、GPU、TPU、NPU等各種各樣的芯片不斷出現(xiàn),大模型也層出不窮,形成了多元競爭、百模競秀的良好局面。這不是重復造車,這是對產(chǎn)業(yè)極大的促進。從歷史來看,很多技術(shù)、文明誕生的初期,都是百家爭鳴、百花齊放。產(chǎn)業(yè)發(fā)展初期有很多家企業(yè)在創(chuàng)新,隨著產(chǎn)業(yè)發(fā)展,企業(yè)會逐漸聚合收攏,與此同時,產(chǎn)業(yè)規(guī)模將會越來越大,逐步擴張,整個過程呈現(xiàn)一個雙漏斗形狀。通用人工智能發(fā)展初期,應該是百舸爭流、大浪淘沙,在市場競爭中不斷完善和發(fā)展,最終通過市場之手、用戶之手來選擇。

系統(tǒng)創(chuàng)新,全局優(yōu)化,拓展創(chuàng)新路徑

從具體實踐看,千億參數(shù)是大模型智能涌現(xiàn)的門檻,萬卡是AI系統(tǒng)設計的起點。這對目前系統(tǒng)的算法效率、計算資源、互連帶寬和能效提出了不小的挑戰(zhàn)。那么面對這些挑戰(zhàn),系統(tǒng)創(chuàng)新、全局優(yōu)化具體應該如何展開實施呢?

首先,在算法效率層面,很多大模型平臺的利用率都很低,大部分算力被浪費掉了。所以,一個大規(guī)模計算系統(tǒng)中,互連、算法等關(guān)系整體效率的工作越來越重要。我們曾經(jīng)在一個芯片平臺上做大模型訓練,發(fā)現(xiàn)平臺的互連帶寬非常之低,為了克服這樣的問題,我們在算法層面做了大量的并行優(yōu)化,包括優(yōu)化器參數(shù)并行、數(shù)據(jù)并行、流水并行等,降低了對帶寬的依賴,讓整個平臺效率提升了33%。

其次,通過硬件重構(gòu)和軟件定義解決資源不足的問題。去年我們發(fā)布了融合架構(gòu)3.0,通過高速互連總線實現(xiàn)各類資源解耦,包括CPU和GPU的解耦,當GPU算力不足的時候,我們可以做到單節(jié)點16卡、32卡,直至達到CPU與GPU的最佳配比。這是一個全新的架構(gòu),打破了以芯片為核心的單機系統(tǒng)設計思路,是以萬卡集群做為設計出發(fā)點的、以系統(tǒng)為核心的全新架構(gòu)。當然,有了如此復雜的系統(tǒng),就要開發(fā)相應的感知調(diào)度軟件,包括業(yè)務感知、資源自動調(diào)度和彈性擴展,這就是軟件定義。

再次,互連會變得越來越重要。過去AI的計算模式叫AI Factory,是一個單一任務的集群,現(xiàn)在出現(xiàn)了一種新的混合模式AI Cloud。面向AI Factory的專用網(wǎng)絡無法支持AI Cloud模式下多用戶、多任務、多租戶需求,因而越來越多的客戶將會采用超級AI以太網(wǎng)。超級AI以太網(wǎng)在整個網(wǎng)絡底層采用了亂序重組的技術(shù),通過智能網(wǎng)卡推動整個高速網(wǎng)絡的效率提升,因而超級AI以太網(wǎng)有著很典型的特點,就是“交換機+智能網(wǎng)卡”的高效整合。

最后,萬卡集群中節(jié)點內(nèi)的P2P高速互連距離是非常有限的,最多能做到1-2個機柜之間的高速互連,所以,AI計算必然走向高密度,機柜供電就要從12-16千瓦走到120千瓦,達到風冷極限,散熱將逐漸走向液冷。AI計算、液冷和整機柜的結(jié)合將成為未來趨勢,浪潮信息將持續(xù)推動液冷組件標準化、規(guī)?;a(chǎn)業(yè)化,最終實現(xiàn)“風液同價”。

協(xié)同共生,開放共贏,加速創(chuàng)新落地

我們建立了元腦平臺融合左手伙伴和右手伙伴,推動產(chǎn)業(yè)AI化。總結(jié)過去元腦生態(tài)的發(fā)展,我們找到了關(guān)鍵路徑,這個既是元腦生態(tài)工作的經(jīng)驗總結(jié),也是我們在自身智能化轉(zhuǎn)型工作中的體會,那就是要研制AI的開發(fā)工具,對伙伴進行工具賦能。

我們建立了企業(yè)大模型開發(fā)平臺,通過工具賦能千行百業(yè)。算法、數(shù)據(jù)等領域的左手合作伙伴可以將新的技術(shù)接入到平臺里,為所有生態(tài)合作伙伴所用;ISV/SI等右手合作伙伴可以在平臺上選擇各類快速開發(fā)工具;用戶獲得了一個強有力的智能化轉(zhuǎn)型加速器。而且這個平臺支持多元多模,創(chuàng)新實現(xiàn)了上層模型算法和下層基礎設施的邏輯解耦,即便伙伴和客戶要更換算力平臺或者模型,都非常方便,試錯成本極低。

結(jié)語

AI可能是我們?nèi)松忻媾R的最大的產(chǎn)業(yè)機遇。這個機遇是顛覆性的,我們希望能夠和合作伙伴一起通力協(xié)作,面對這樣一個百年難遇的人生機遇,攜手共同努力,邁向AI的新時代。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )