融合架構(gòu)3.0:開啟計算體系架構(gòu)再創(chuàng)新的密鑰

2019年,圖靈獎獲得者John Hennessy和David Patterson在ACM刊登署名文章《計算機體系結(jié)構(gòu)的新黃金時代》中認為:計算體系架構(gòu)又將迎來創(chuàng)新的黃金十年,新的架構(gòu)創(chuàng)新會帶來更低成本,以及更優(yōu)的性能、安全性和能耗。

的確,在摩爾定律(Moore’s Law)和登納德縮放(Dennard Scaling)定律逐漸放緩甚至走向失效之際,現(xiàn)有計算機體系架構(gòu)的弱缺點日趨凸顯。尤其是2016年以來,深度學習、機器學習、大模型等獲得突飛猛進的進步,GPU、NPU等XPU需求旺盛,算力需求全面走向異構(gòu)化、多樣化,計算體系架構(gòu)開啟新紀元已是大勢所趨。

那么,計算體系架構(gòu)再創(chuàng)新的重點與方向有哪些?XPU等部件級的架構(gòu)創(chuàng)新固然令人眼前一亮,但從算力整體視角的創(chuàng)新終究能給產(chǎn)業(yè)發(fā)展帶來更具影響力的突破。正如浪潮信息從2014年開始就致力于融合架構(gòu)的探索,兩代融合架構(gòu)對于算力產(chǎn)業(yè)發(fā)展起到關(guān)鍵作用。

如今,在OCP China Day 2023上,浪潮信息又發(fā)布了融合架構(gòu)3.0原型系統(tǒng),帶來系統(tǒng)級多元異構(gòu)融合、機柜級解耦和池化以及資源異步升級等多個層面的創(chuàng)新,為計算體系架構(gòu)新黃金時代書寫濃墨重彩的一筆。

浪潮信息推出融合架構(gòu)3.0原型系統(tǒng)

以數(shù)據(jù)為中心的時代到來

如果說數(shù)據(jù)是這個時代最重要的生產(chǎn)要素,那么AI則是實現(xiàn)數(shù)據(jù)價值的最佳生產(chǎn)工具。

如今,一個以數(shù)據(jù)為中心的時代正在加速到來。IDC《全球計算力指數(shù)白皮書203》認為,未來基礎架構(gòu)將是以數(shù)據(jù)為中心的計算體系架構(gòu)。事實上,從最近十年人工智能的發(fā)展也能透視這一趨勢,深度學習、機器學習、LLM大模型的興起,帶來了翻天覆地般的算力新需求,也對于傳統(tǒng)以CPU為核心的計算體系架構(gòu)帶來巨大沖擊。

AIGC浪潮到來,讓數(shù)據(jù)規(guī)模、參數(shù)量、并行處理規(guī)模再上一個臺階,也使得數(shù)據(jù)中心的 “內(nèi)存墻”、“I/O墻”、“功耗墻”等現(xiàn)象愈發(fā)突出。例如,OpenAI的GPT-4的參數(shù)量已經(jīng)達到驚人的1.8萬億,有13萬億Token訓練,未來的GPT-5參數(shù)量更可能達到10萬億,海量參數(shù)的并行處理,不僅帶來對于內(nèi)存需求的大幅增加,也會產(chǎn)生梯度數(shù)據(jù)聚合與分發(fā)等海量通信需求,以及極高的能耗表現(xiàn)。

除了AI帶來顯著算力挑戰(zhàn)之外,千行百業(yè)用戶們的數(shù)字化轉(zhuǎn)型已步入深水區(qū),云、邊、端等業(yè)務場景極為豐富多樣,這些業(yè)務場景均有一個顯著特點,即以數(shù)據(jù)驅(qū)動為核心,對于算力需求卻五花八門,對于底層的算力基礎設施提出了更加復雜和細分化的需求,而傳統(tǒng)計算架構(gòu)從處理能力、運維管理、資源共享等維度均很難滿足數(shù)字化轉(zhuǎn)型的深層次需求。

因此,以系統(tǒng)創(chuàng)新的視角來推動計算體系架構(gòu)發(fā)展是當下最為重要的方向,需要讓基礎設施整體資源進行解耦與池化,以更加細粒度功能服務來支撐起豐富多樣的應用需求。正如浪潮信息服務器產(chǎn)品線總經(jīng)理趙帥所言:“當前計算體系架構(gòu)的不足已經(jīng)在逐漸放大。融合架構(gòu)3.0是浪潮信息對計算體系架構(gòu)整體創(chuàng)新的一種探索。”

融合架構(gòu)3.0創(chuàng)新難在哪

《人月神話》有句名言:“這個世界上沒有銀彈。”同樣,計算體系架構(gòu)的創(chuàng)新是一個長期、不斷摸索和迭代上升的過程,創(chuàng)新逐步積累才能實現(xiàn)從量變到質(zhì)變,絕沒有捷徑可走。

浪潮信息融合架構(gòu)九年發(fā)展歷程最能體現(xiàn)這一點。在融合架構(gòu)1.0時期,浪潮信息主要解決的是集中供電、散熱等非IT資源的模塊化;融合架構(gòu)2.0實現(xiàn)進一步的升級,實現(xiàn)存儲、網(wǎng)絡等資源的池化,并利用虛擬化、云計算等技術(shù)來滿足用戶需求;而融合架構(gòu)3.0則有了突破性的進展,實現(xiàn)計算資源、存儲資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,通過軟件定義的方式實現(xiàn)資源協(xié)同動態(tài)調(diào)度。

“融合架構(gòu)3.0原型系統(tǒng)效率可比上一代軟件虛擬化系統(tǒng)提升一到兩個數(shù)量級,可擴展性提高2~4倍,系統(tǒng)延時降低90%。”趙帥介紹道。

所有資源的解耦與池化,意味著打破了過去資源孤立的情況,通過整體協(xié)調(diào)與調(diào)度,應用可以根據(jù)需求來對資源進行隨需所用,這無疑會對性能、成本、能耗等方面帶來全面的優(yōu)化。

趙帥直言,浪潮信息在探索融合架構(gòu)3.0時遇到最大的挑戰(zhàn)有二:其一是內(nèi)存池化資源,其二是池化后系統(tǒng)的互連。

眾所周知,內(nèi)存解耦與池化一直都是計算體系架構(gòu)創(chuàng)新的難點。在AI大模型等帶動下,CPU、GPU、FPGA等多設備的大容量內(nèi)存使用已經(jīng)成為常態(tài),進而導致了內(nèi)存資源池化之后的緩存一致性等挑戰(zhàn)。融合架構(gòu)3.0的思路就是研制新型應用串行緩存一致性總線及其交換技術(shù)的內(nèi)存模組和內(nèi)存池化系統(tǒng),利用CXL互聯(lián)技術(shù)來實現(xiàn)多設備之間的高速互聯(lián),為大規(guī)模內(nèi)存擴展與內(nèi)存資源池化提供了低延時的訪問路徑以及緩存一致性保證,滿足內(nèi)存池化后的資源共享和高效運算調(diào)度需求。

趙帥介紹:“利用CXL高速互聯(lián)技術(shù),可以讓遠端內(nèi)存像本地內(nèi)存一樣,達到相近的延遲。CXL已經(jīng)發(fā)布3.0版本,數(shù)據(jù)傳輸速率提升到64GT/s,隨著更多AI相關(guān)處理器接入CXL 交換網(wǎng)絡,整系統(tǒng)內(nèi)存可以實現(xiàn)硬件層面全局共享,將顯著緩解AI大模型訓練‘內(nèi)存墻’問題?!?/p>

由于實現(xiàn)了機柜級的解耦和池化,這意味著數(shù)據(jù)速率不斷攀升和系統(tǒng)鏈路更加復雜,池化之后互連設計變得無比重要,這是確保池化之后資源協(xié)同調(diào)度和靈活按需使用的關(guān)鍵。浪潮信息的解決思路是在融合架構(gòu)3.0中針對復雜鏈路高速互連進行高精度的擬合仿真研究,準確分析系統(tǒng)互連鏈路多樣化拓撲和傳輸速率的極限。并通過探索服務器內(nèi)部總線光互連技術(shù),延展鏈路傳輸距離,實現(xiàn)數(shù)據(jù)中心大規(guī)模資源解耦池化。

浪潮信息技術(shù)研發(fā)部副總經(jīng)理吳安認為:“融合架構(gòu)3.0從設計角度是按照三步走,首先是解耦,之后把不同資源進行池化,池化之后就是重構(gòu)。在這個過程中,互連是核心所在。例如,解耦池化之后,涉及到時序、時鐘管理、供電管理、散熱管理等如何協(xié)同管理與控制;資源重構(gòu)時的邏輯單元、池化管理以及策略自動化等都需要互聯(lián)技術(shù)來協(xié)調(diào)?!?/p>

事實上,浪潮信息融合架構(gòu)3.0原型系統(tǒng)的出現(xiàn),將逐步打破未來算力產(chǎn)品迭代的模式。眾所周知,過去服務器等算力產(chǎn)品的更新與迭代以處理器更新為產(chǎn)品更新?lián)Q代的基礎。如今,融合架構(gòu)3.0原型系統(tǒng)的出現(xiàn),則有望真正實現(xiàn)以數(shù)據(jù)處理為需求中心,根據(jù)用戶業(yè)務需求來進行更新迭代。

吳安介紹:“融合架構(gòu)3.0提供了異步迭代這個更具想象空間的方式。因為融合架構(gòu)3.0不再以CPU處理器為核心,而是與數(shù)據(jù)處理為核心。例如,很多用戶業(yè)務上并不需要很快升級到DDR 5,業(yè)務對于DDR 5帶寬速率提升并不在意,反而希望利用DDR 4延時、價格等優(yōu)勢,此時可以通過融合架構(gòu)3.0實現(xiàn)異步升迭代,在DDR 5平臺上使用DDR 4?!?/p>

John Hennessy和David Patterson在《計算機體系架構(gòu)的新黃金時代》也認為,未來的計算體系架構(gòu)垂直整合將變得無比重要。顯然,融合架構(gòu)3.0原型系統(tǒng)是體系架構(gòu)創(chuàng)新的一次重要探索,它在多個技術(shù)點突破的基礎上,從整體角度形成一個系統(tǒng)級的解決方案。

“融合架構(gòu)3.0 目前是一個原型系統(tǒng),未來在技術(shù)上還會有更多突破點,從而實現(xiàn)更好的落地效果?!壁w帥如是說。

開啟體系架構(gòu)再創(chuàng)新的密鑰

近年來,業(yè)界關(guān)于計算體系架構(gòu)創(chuàng)新的呼聲此起彼伏。在眾多廠商中,浪潮信息是為數(shù)不多路線規(guī)劃明確、穩(wěn)步推進的廠商之一。隨著融合架構(gòu)3.0 原型系統(tǒng)的發(fā)布,作為算力產(chǎn)業(yè)領導者的浪潮信息也有望以融合架構(gòu)3.0為抓手,牽引整個產(chǎn)業(yè)界加速開啟計算體系架構(gòu)的黃金時代。

首先,融合架構(gòu)3.0 作為計算體系架構(gòu)創(chuàng)新探索的一次突破,猶如一個開放的生態(tài),將極大降低新技術(shù)融入和采用的門檻,并有望帶動整個算力產(chǎn)業(yè)界的創(chuàng)新活躍度。例如,GPU之所以在當前AI大模型等領域受到追捧,很關(guān)鍵的因素在于其工具等生態(tài)的成熟,隨著AI大模型逐步融入到各行各業(yè)之中,未來還會衍生出大量的推理和訓練需求,通過融合架構(gòu)3.0可以引入更多優(yōu)秀的新技術(shù)。

其次,融合架構(gòu)3.0原型系統(tǒng)的發(fā)布,有望帶動創(chuàng)新技術(shù)加速落地到千行百業(yè)的數(shù)字化轉(zhuǎn)型之中。當前,融合架構(gòu)主要還是互聯(lián)網(wǎng)用戶在廣泛使用,但隨著千行百業(yè)數(shù)字化轉(zhuǎn)型步入深水區(qū),互聯(lián)網(wǎng)用戶今天在基礎設施遇到的挑戰(zhàn)可能就是未來行業(yè)用戶會遇到的。因此,融合架構(gòu)3.0可以快速彌補傳統(tǒng)行業(yè)用戶的技術(shù)鴻溝,實現(xiàn)業(yè)務的加速轉(zhuǎn)型。

毫無疑問,下一個十年將是計算體系架構(gòu)創(chuàng)新的“寒武紀”,各種創(chuàng)新必然大爆發(fā)和層出不窮,一個令人激動的時代已然開啟。浪潮信息融合架構(gòu)3.0原型系統(tǒng)無疑是計算體系架構(gòu)一次大膽創(chuàng)新,對于產(chǎn)業(yè)界有著深遠意義。

“面向未來,企業(yè)各項業(yè)務會越來越依賴數(shù)據(jù)及價值,算力技術(shù)也需要不斷演進,去幫助企業(yè)提升數(shù)據(jù)處理效率和最大化釋放數(shù)據(jù)價值?!壁w帥最后表示道。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-08-27
融合架構(gòu)3.0:開啟計算體系架構(gòu)再創(chuàng)新的密鑰
融合架構(gòu)3.0:開啟計算體系架構(gòu)再創(chuàng)新的密鑰

長按掃碼 閱讀全文