人工智能、云計算、大數(shù)據(jù)等各類數(shù)字技術正在交織構建一個全新的虛擬空間,生產(chǎn)、流通、科學、教育、娛樂、社交等等無不因此而變。在技術驅動下,新的數(shù)字文明正勃然而興,突飛猛進的算力變革則是這次文明迭代的重要驅動力之一。自計算機問世以來,在短短的70余年的時間內(nèi),其性能從最初的每秒5000次運算發(fā)展到如今超級計算機的每秒百億億次計算,性能激增數(shù)百萬億倍。即便如此,面對蓬勃興起的生成式人工智能、元宇宙等技術,算力缺口依然巨大。
在浪潮信息,有這樣一群工程師們,他們在好奇心的驅動下,通過各種方式尋找算力提升的路徑,無論進步大小,自豪感都在驅使著他們繼續(xù)探索未知,甚至像一個科學家一樣琢磨各種跨界的技術,并用于解決各類工程難題。他們具有發(fā)散的思維,也有著聚焦的能力,憑借對算力創(chuàng)新的熱情與追求,不斷拓展數(shù)字文明的邊界……。
112Gbps高速互連,服務器設計的“藝術”
Yang Yang,浪潮信息AI服務器工程師大軍中的一員,他所在的團隊負責進行AI服務器系統(tǒng)架構的研發(fā)工作,其中的關鍵是——設計開發(fā)出一款具備超高速互連性能的開放加速基板。
“以前,我們在強調(diào)怎么樣去提高單顆芯片的算力。但是到了大模型時代,模型訓練動輒成千上萬張卡,單張芯片已經(jīng)完全無法承載。在新的AI超級計算機形態(tài)下,什么樣的互連架構才能更好的支撐大模型業(yè)務發(fā)展,是我們重點研究的一個課題。” Yang Yang認為,實現(xiàn)數(shù)千乃至上萬顆芯片互連并讓它們能夠高效協(xié)同工作的前提,是解決單個服務器內(nèi)部芯片的高速直連,這是一切問題的“原點”。
在他們團隊的努力下,浪潮信息定義了業(yè)界第一個符合OAM(開放加速模塊)規(guī)范的8卡互連AI系統(tǒng),這是一個遵循開放計算標準的互連的基板,首次達到了業(yè)界最高的單通道速率56Gbps。這個基板的厚度僅為3.26mm,層數(shù)卻高達22層,包含了近1000個高速互連差分對。
目前,56Gpbs仍然是開放加速規(guī)范下芯片互連的最高速率。Yang Yang表示:“下一步,我們將沖刺112Gbps單通道的高速互連通信,這種級別的速度提升,就相當于我們從5G時代跨步進入了6G時代。”
112Gbps 高速互連技術難點在于,在物理尺寸近乎不變的情況下,要將GPU間的互連速率提升一倍,需要犧牲信噪比。而信噪比的降低帶來的影響是巨大的,意味著112Gbps信號對于抖動和噪聲的敏感程度更為強烈,即對于信道的串擾、SCD(信號在通過該通道時的差分能量變?yōu)楣材D芰康哪B(tài)轉化量,越低越好。)、PN Skew(內(nèi)外線路不等長造成的傳輸差異)、ILD(損耗,線損/阻抗的影響程度,即漂移度)等指標的要求都更為嚴苛。
這不僅需要更高端的材料支撐,更考驗設計的“藝術”。要知道,3-5mm厚度的基板實際上是采用疊層設計,往往包含了十幾層甚至幾十層PCB板(印刷電路板),每層厚度僅有100微米左右,與一張A4紙相當。而為了保證信號傳輸質量,每組線路均需要采用差分對設計,即采用長度相等、相位相反的互補信號來傳輸同一個信號,以減少噪音和EMI(電磁干擾),這將使得布線量增加一倍,對于本就信號布線密度近乎極限的基板來說,無疑是雪上加霜。并且,差分對走線的寬度和間距必須始終保持一致,當在基板上的障礙物,如過孔或較小的器件周圍布線時,對設計能力的要求更高。
因此,112Gbps高速互連設計不僅需要尋找更低損耗的樹酯、玻璃纖維及更平滑的銅箔,同時也要確保這些材料在加工之后能夠符合可靠度的規(guī)范,設計與工藝復雜度極高。
在Yang Yang看來,112Gpbs高速互連技術既需要科學的發(fā)散,也要做到工程的收斂:通過科學的發(fā)散尋找創(chuàng)新的可能性,通過工程的收斂尋找“可行性”。創(chuàng)新的可能性空間包括了材料、工藝、方法、管理運營等等,而可行性則是尋找“最大化或最小化”,是尋找最優(yōu)解的過程,“就像談到利潤,我們往往都會追求利潤最大化而成本最小化,最大化與最小化在很多時候是統(tǒng)一的,目標是一致的。”
Yang Yang團隊所從事的工作能夠惠及數(shù)以百計的芯片創(chuàng)新公司以及更多數(shù)量的用戶:借助標準化的、性能出色的開放加速基板,芯片公司可以快速的實現(xiàn)產(chǎn)品落地并持續(xù)迭代,而用戶則可以使用統(tǒng)一的、開放的基礎架構,根據(jù)業(yè)務需要配置不同類型的AI加速芯片,加快創(chuàng)新和創(chuàng)造更好的用戶體驗。
聽音降噪,服務器優(yōu)化的“浪漫”
一臺服務器需要整合超過10000個零部件,其中包括50多類專用芯片;同時還涉及30多個技術方向,例如材料學、熱力學、電池技術、流體力學、化學等一系列學科;此外,一臺服務器里還會應用超過100種傳輸協(xié)議。在制造中,服務器需要經(jīng)歷30多道流程,使用100多種加工和制造工藝,并對200多個關鍵過程的控制點進行把控。
如何確保整個系統(tǒng)的可靠性,是一項非常精細且復雜的工程,每一個細節(jié)都關乎整體,甚至連聲音,也會影響到服務器的可靠性。四五年前,相當數(shù)量的數(shù)據(jù)中心用戶幾乎都遇到了同一個問題:風扇轉速越快,硬盤越有可能出現(xiàn)性能波動,嚴重時還會直接掉線。
“最開始以為振動是罪魁禍首,后來才發(fā)現(xiàn)聲音才是始作俑者。” 浪潮信息結構工程師Cathy Wang以女性特有的敏銳,創(chuàng)造出一種獨屬于工程師的“浪漫”——聽音降噪。
團隊針對硬盤性能失效問題做了大量的實驗,發(fā)現(xiàn)風扇產(chǎn)生的噪音一旦達到120分貝,極易造成硬盤磁頭偏移、讀寫效率下降,進而導致扇區(qū)失效乃至硬盤報廢、服務器宕機。“在結構的領域來說有一個不可調(diào)和的矛盾,就是風扇的轉速提高之后,它的噪音會向高頻段以及大聲壓這個方向去發(fā)展,而且它是這個聲音和轉速是成5次方的關系在增長的,所以我們看到一個非常明確且快速的風扇的噪音增長的趨勢。這個風扇和硬盤之間的沖突的問題,如何站在系統(tǒng)設計的角度,建立硬盤敏感度模型,成為業(yè)界廠商探討的難點。” Cathy Wang介紹說。
不過,雖然找到了問題的根源,但解決問題的過程依然曲折。在嘗試過正弦波、1/3倍頻程等走不通的路徑后,Cathy Wang所在的團隊才找到了最合適的噪音帶寬,并以混頻、掃頻的模式模擬出多樣化的噪聲源,能夠測量硬盤在500Hz~10000Hz噪音刺激下的共振頻率和聲壓閥值?;诖罅繖C理性研究和測試,團隊發(fā)現(xiàn)硬盤性能損失與聲壓強度間的數(shù)學規(guī)律,構建出業(yè)界首個硬盤敏感度模型,量化出不同硬盤受到各類噪聲影響后的性能表現(xiàn)。
“我們希望通過我們的研究工作,讓性能優(yōu)化從經(jīng)驗主導變?yōu)榭茖W主導,借助于不斷完善的基礎理論、工具與方法,針對特定問題形成標準方案并設計出新的可復用知識。” Cathy Wang說道。
服務器里聲音的“黑盒子”就這樣被打開了。在確定機箱內(nèi)真正影響硬盤工作的噪音頻譜的基礎上,浪潮信息的工程師對服務器系統(tǒng)展開全方位的優(yōu)化設計。首先從噪聲振動的源頭入手,通過CFD流體動力學仿真改進風扇的葉片形態(tài),抑制扇葉表面因渦流脫落形成的高頻噪音;其次,在機箱內(nèi)通過設計40多種歌院式的消音結構,有效消除特定的高頻噪聲;此外,還對硬盤固件中的伺服控制算法進行調(diào)整,讓硬盤磁頭的噪聲共振擺動控制在10納米以內(nèi),在提升讀寫效率、性能翻倍的同時,實現(xiàn)服務器安全運行。
融合架構3.0,服務器架構的“夢想”
大模型時代,當在單機上獲得較高算力效率之后,能不能在幾百個節(jié)點、幾千塊卡保持相對線性的性能擴展比,已經(jīng)成為算力集群系統(tǒng)設計和并行策略設計時的關鍵性因素。在傳統(tǒng)計算體系結構中,處理器橫向擴展一直是難以突破的瓶頸,尋找新的出路勢在必行。
浪潮信息體系結構工程師Lorne Ci 認為:“傳統(tǒng)服務器是把所有的IT資源放到一個服務器里面。如果需要更多算力、更多內(nèi)存、更多IO的話,需要把服務器去做疊加,像我們通常意義上一個大規(guī)模的數(shù)據(jù)中心可能有十幾萬臺,甚至有幾十萬臺服務器。但簡單的堆疊只能堆出各種形態(tài)和規(guī)格的服務器,這對數(shù)據(jù)中心計算能力的提升,并沒有實質性的幫助。需要把服務器IT資源都做成池化的形態(tài),然后通過軟件定義的方式來實現(xiàn)資源的動態(tài)調(diào)配。”
因此,Lorne Ci 團隊研究的方向是,創(chuàng)造一種新的體系架構,將硬件設備中的同類資源整合成一個資源池,不同的設備能夠任意的整合,再通過軟件動態(tài)感知業(yè)務的資源需求,利用硬件重組的能力來滿足各類應用的需要。
浪潮信息將這種新的體系架構命名為“融合架構”,早在2014年就提出這一技術理念,核心在于通過硬件解耦實現(xiàn)資源的物理池化和動態(tài)重構,通過軟件定義實現(xiàn)業(yè)務感知的按需資源組合與配置,滿足系統(tǒng)的彈性伸縮和超大規(guī)模的持續(xù)擴展,實現(xiàn)軟硬高度協(xié)同發(fā)展。浪潮信息將融合架構的發(fā)展劃分為三個階段,分別為 “服務器即計算機(Server as a Computer)” ,“機柜即計算機(Rack as a Computer)”以及最終的“數(shù)據(jù)中心即計算機(Data Center as a Computer)”。
目前融合架構3.0原型系統(tǒng)已經(jīng)研制成功,實現(xiàn)了計算資源、存儲資源、內(nèi)存資源、異構加速資源等核心IT資源徹底解耦與池化,支持池化資源異步升級、支持細粒度多主機共享高并發(fā)存儲、亞微秒級遠端內(nèi)存共享訪問等特性,可通過軟件定義實現(xiàn)“一套系統(tǒng),N類應用”。
融合架構3.0最核心的就是要做到內(nèi)存資源池的池化與算力資源池的池化。而如何實現(xiàn)遠程內(nèi)存的調(diào)用,實現(xiàn)低延時的快速響應,如何實現(xiàn)緩存一致性……都是內(nèi)存池化面臨的重大挑戰(zhàn)。Lorne Ci 介紹說,“現(xiàn)在融合架構基于許多開放總線技術,包括PCIE、CXL等等,共同構建一個大內(nèi)存系統(tǒng),構建了一個高速高性能的互聯(lián)網(wǎng)絡,這對于參數(shù)量和數(shù)據(jù)量激增的大模型訓練有著巨大價值。”
伴隨著融合架構3.0原型系統(tǒng)的研制成功,浪潮信息在融合架構領域完成了重要的突破,實現(xiàn)了整機柜級別的計算、內(nèi)存、存儲與互聯(lián)等各種IT資源的池化。其中,內(nèi)存解耦實現(xiàn)了亞微秒級的遠端內(nèi)存訪問,并構建出了一種邏輯上可遠端共享的內(nèi)存資源池。這種變化讓多臺主機可以訪問同一個內(nèi)存池,并最終大幅提高了數(shù)據(jù)交換的效率。新的架構打破了現(xiàn)有服務器的邏輯架構與應用模式。它以系統(tǒng)設計為中心,可以讓數(shù)據(jù)中心從資源驅動型向業(yè)務驅動型轉變。面向云計算和人工智能等不同場景,這種新的架構和新的組合方式,讓數(shù)據(jù)中心真正實現(xiàn)了,用一套系統(tǒng)去支撐多類應用。
在如今這個逐漸成型的數(shù)字文明時代,計算已經(jīng)滲透到我們生活的方方面面。不論是在家庭中,商業(yè)世界,還是科學研究領域,計算技術都無處不在,這已經(jīng)成為了我們?nèi)粘I畹囊徊糠帧H欢?,我們必須認識到,這只是數(shù)字文明的起點,計算的重要性將在未來進一步凸顯。算力創(chuàng)新將成為數(shù)字文明中的火種,它將不斷照亮前行的道路。正如昔日的拓荒者冒險前行以開辟新的大陸,今天無數(shù)的"算力拓荒人"將持續(xù)引領我們進入數(shù)字時代的新境界。這些先鋒者將科學與工程融合,將"知"與"行"完美結合,以探索廣闊而充滿想象的未知之地。
在這條通往數(shù)字文明的開拓之路上,充滿了機遇與挑戰(zhàn),我們需要更多具備跨學科知識的"知行合一"的研發(fā)人員,科技工作者,去通過一系列前所未有的解決方案,將計算創(chuàng)新推向新的高度,使其持續(xù)閃耀,帶領我們走向數(shù)字文明的下一個巔峰。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )