融合架構3.0:開啟計算體系架構再創(chuàng)新的密鑰

2019年,圖靈獎獲得者John Hennessy和David Patterson在ACM刊登署名文章《計算機體系結構的新黃金時代》中認為:計算體系架構又將迎來創(chuàng)新的黃金十年,新的架構創(chuàng)新會帶來更低成本,以及更優(yōu)的性能、安全性和能耗。

的確,在摩爾定律(Moore’s Law)和登納德縮放(Dennard Scaling)定律逐漸放緩甚至走向失效之際,現(xiàn)有計算機體系架構的弱缺點日趨凸顯。尤其是2016年以來,深度學習、機器學習、大模型等獲得突飛猛進的進步,GPU、NPU等XPU需求旺盛,算力需求全面走向異構化、多樣化,計算體系架構開啟新紀元已是大勢所趨。

那么,計算體系架構再創(chuàng)新的重點與方向有哪些?XPU等部件級的架構創(chuàng)新固然令人眼前一亮,但從算力整體視角的創(chuàng)新終究能給產業(yè)發(fā)展帶來更具影響力的突破。正如浪潮信息從2014年開始就致力于融合架構的探索,兩代融合架構對于算力產業(yè)發(fā)展起到關鍵作用。

如今,在OCP China Day 2023上,浪潮信息又發(fā)布了融合架構3.0原型系統(tǒng),帶來系統(tǒng)級多元異構融合、機柜級解耦和池化以及資源異步升級等多個層面的創(chuàng)新,為計算體系架構新黃金時代書寫濃墨重彩的一筆。

浪潮信息推出融合架構3.0原型系統(tǒng)

以數(shù)據(jù)為中心的時代到來

如果說數(shù)據(jù)是這個時代最重要的生產要素,那么AI則是實現(xiàn)數(shù)據(jù)價值的最佳生產工具。

如今,一個以數(shù)據(jù)為中心的時代正在加速到來。IDC《全球計算力指數(shù)白皮書203》認為,未來基礎架構將是以數(shù)據(jù)為中心的計算體系架構。事實上,從最近十年人工智能的發(fā)展也能透視這一趨勢,深度學習、機器學習、LLM大模型的興起,帶來了翻天覆地般的算力新需求,也對于傳統(tǒng)以CPU為核心的計算體系架構帶來巨大沖擊。

AIGC浪潮到來,讓數(shù)據(jù)規(guī)模、參數(shù)量、并行處理規(guī)模再上一個臺階,也使得數(shù)據(jù)中心的 “內存墻”、“I/O墻”、“功耗墻”等現(xiàn)象愈發(fā)突出。例如,OpenAI的GPT-4的參數(shù)量已經(jīng)達到驚人的1.8萬億,有13萬億Token訓練,未來的GPT-5參數(shù)量更可能達到10萬億,海量參數(shù)的并行處理,不僅帶來對于內存需求的大幅增加,也會產生梯度數(shù)據(jù)聚合與分發(fā)等海量通信需求,以及極高的能耗表現(xiàn)。

除了AI帶來顯著算力挑戰(zhàn)之外,千行百業(yè)用戶們的數(shù)字化轉型已步入深水區(qū),云、邊、端等業(yè)務場景極為豐富多樣,這些業(yè)務場景均有一個顯著特點,即以數(shù)據(jù)驅動為核心,對于算力需求卻五花八門,對于底層的算力基礎設施提出了更加復雜和細分化的需求,而傳統(tǒng)計算架構從處理能力、運維管理、資源共享等維度均很難滿足數(shù)字化轉型的深層次需求。

因此,以系統(tǒng)創(chuàng)新的視角來推動計算體系架構發(fā)展是當下最為重要的方向,需要讓基礎設施整體資源進行解耦與池化,以更加細粒度功能服務來支撐起豐富多樣的應用需求。正如浪潮信息服務器產品線總經(jīng)理趙帥所言:“當前計算體系架構的不足已經(jīng)在逐漸放大。融合架構3.0是浪潮信息對計算體系架構整體創(chuàng)新的一種探索?!?/p>

融合架構3.0創(chuàng)新難在哪

《人月神話》有句名言:“這個世界上沒有銀彈?!蓖瑯?,計算體系架構的創(chuàng)新是一個長期、不斷摸索和迭代上升的過程,創(chuàng)新逐步積累才能實現(xiàn)從量變到質變,絕沒有捷徑可走。

浪潮信息融合架構九年發(fā)展歷程最能體現(xiàn)這一點。在融合架構1.0時期,浪潮信息主要解決的是集中供電、散熱等非IT資源的模塊化;融合架構2.0實現(xiàn)進一步的升級,實現(xiàn)存儲、網(wǎng)絡等資源的池化,并利用虛擬化、云計算等技術來滿足用戶需求;而融合架構3.0則有了突破性的進展,實現(xiàn)計算資源、存儲資源、內存資源、異構加速資源等核心IT資源徹底解耦與池化,通過軟件定義的方式實現(xiàn)資源協(xié)同動態(tài)調度。

“融合架構3.0原型系統(tǒng)效率可比上一代軟件虛擬化系統(tǒng)提升一到兩個數(shù)量級,可擴展性提高2~4倍,系統(tǒng)延時降低90%。”趙帥介紹道。

所有資源的解耦與池化,意味著打破了過去資源孤立的情況,通過整體協(xié)調與調度,應用可以根據(jù)需求來對資源進行隨需所用,這無疑會對性能、成本、能耗等方面帶來全面的優(yōu)化。

趙帥直言,浪潮信息在探索融合架構3.0時遇到最大的挑戰(zhàn)有二:其一是內存池化資源,其二是池化后系統(tǒng)的互連。

眾所周知,內存解耦與池化一直都是計算體系架構創(chuàng)新的難點。在AI大模型等帶動下,CPU、GPU、FPGA等多設備的大容量內存使用已經(jīng)成為常態(tài),進而導致了內存資源池化之后的緩存一致性等挑戰(zhàn)。融合架構3.0的思路就是研制新型應用串行緩存一致性總線及其交換技術的內存模組和內存池化系統(tǒng),利用CXL互聯(lián)技術來實現(xiàn)多設備之間的高速互聯(lián),為大規(guī)模內存擴展與內存資源池化提供了低延時的訪問路徑以及緩存一致性保證,滿足內存池化后的資源共享和高效運算調度需求。

趙帥介紹:“利用CXL高速互聯(lián)技術,可以讓遠端內存像本地內存一樣,達到相近的延遲。CXL已經(jīng)發(fā)布3.0版本,數(shù)據(jù)傳輸速率提升到64GT/s,隨著更多AI相關處理器接入CXL 交換網(wǎng)絡,整系統(tǒng)內存可以實現(xiàn)硬件層面全局共享,將顯著緩解AI大模型訓練‘內存墻’問題?!?/p>

由于實現(xiàn)了機柜級的解耦和池化,這意味著數(shù)據(jù)速率不斷攀升和系統(tǒng)鏈路更加復雜,池化之后互連設計變得無比重要,這是確保池化之后資源協(xié)同調度和靈活按需使用的關鍵。浪潮信息的解決思路是在融合架構3.0中針對復雜鏈路高速互連進行高精度的擬合仿真研究,準確分析系統(tǒng)互連鏈路多樣化拓撲和傳輸速率的極限。并通過探索服務器內部總線光互連技術,延展鏈路傳輸距離,實現(xiàn)數(shù)據(jù)中心大規(guī)模資源解耦池化。

浪潮信息技術研發(fā)部副總經(jīng)理吳安認為:“融合架構3.0從設計角度是按照三步走,首先是解耦,之后把不同資源進行池化,池化之后就是重構。在這個過程中,互連是核心所在。例如,解耦池化之后,涉及到時序、時鐘管理、供電管理、散熱管理等如何協(xié)同管理與控制;資源重構時的邏輯單元、池化管理以及策略自動化等都需要互聯(lián)技術來協(xié)調?!?/p>

事實上,浪潮信息融合架構3.0原型系統(tǒng)的出現(xiàn),將逐步打破未來算力產品迭代的模式。眾所周知,過去服務器等算力產品的更新與迭代以處理器更新為產品更新?lián)Q代的基礎。如今,融合架構3.0原型系統(tǒng)的出現(xiàn),則有望真正實現(xiàn)以數(shù)據(jù)處理為需求中心,根據(jù)用戶業(yè)務需求來進行更新迭代。

吳安介紹:“融合架構3.0提供了異步迭代這個更具想象空間的方式。因為融合架構3.0不再以CPU處理器為核心,而是與數(shù)據(jù)處理為核心。例如,很多用戶業(yè)務上并不需要很快升級到DDR 5,業(yè)務對于DDR 5帶寬速率提升并不在意,反而希望利用DDR 4延時、價格等優(yōu)勢,此時可以通過融合架構3.0實現(xiàn)異步升迭代,在DDR 5平臺上使用DDR 4?!?/p>

John Hennessy和David Patterson在《計算機體系架構的新黃金時代》也認為,未來的計算體系架構垂直整合將變得無比重要。顯然,融合架構3.0原型系統(tǒng)是體系架構創(chuàng)新的一次重要探索,它在多個技術點突破的基礎上,從整體角度形成一個系統(tǒng)級的解決方案。

“融合架構3.0 目前是一個原型系統(tǒng),未來在技術上還會有更多突破點,從而實現(xiàn)更好的落地效果?!壁w帥如是說。

開啟體系架構再創(chuàng)新的密鑰

近年來,業(yè)界關于計算體系架構創(chuàng)新的呼聲此起彼伏。在眾多廠商中,浪潮信息是為數(shù)不多路線規(guī)劃明確、穩(wěn)步推進的廠商之一。隨著融合架構3.0 原型系統(tǒng)的發(fā)布,作為算力產業(yè)領導者的浪潮信息也有望以融合架構3.0為抓手,牽引整個產業(yè)界加速開啟計算體系架構的黃金時代。

首先,融合架構3.0 作為計算體系架構創(chuàng)新探索的一次突破,猶如一個開放的生態(tài),將極大降低新技術融入和采用的門檻,并有望帶動整個算力產業(yè)界的創(chuàng)新活躍度。例如,GPU之所以在當前AI大模型等領域受到追捧,很關鍵的因素在于其工具等生態(tài)的成熟,隨著AI大模型逐步融入到各行各業(yè)之中,未來還會衍生出大量的推理和訓練需求,通過融合架構3.0可以引入更多優(yōu)秀的新技術。

其次,融合架構3.0原型系統(tǒng)的發(fā)布,有望帶動創(chuàng)新技術加速落地到千行百業(yè)的數(shù)字化轉型之中。當前,融合架構主要還是互聯(lián)網(wǎng)用戶在廣泛使用,但隨著千行百業(yè)數(shù)字化轉型步入深水區(qū),互聯(lián)網(wǎng)用戶今天在基礎設施遇到的挑戰(zhàn)可能就是未來行業(yè)用戶會遇到的。因此,融合架構3.0可以快速彌補傳統(tǒng)行業(yè)用戶的技術鴻溝,實現(xiàn)業(yè)務的加速轉型。

毫無疑問,下一個十年將是計算體系架構創(chuàng)新的“寒武紀”,各種創(chuàng)新必然大爆發(fā)和層出不窮,一個令人激動的時代已然開啟。浪潮信息融合架構3.0原型系統(tǒng)無疑是計算體系架構一次大膽創(chuàng)新,對于產業(yè)界有著深遠意義。

“面向未來,企業(yè)各項業(yè)務會越來越依賴數(shù)據(jù)及價值,算力技術也需要不斷演進,去幫助企業(yè)提升數(shù)據(jù)處理效率和最大化釋放數(shù)據(jù)價值?!壁w帥最后表示道。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2023-08-27
融合架構3.0:開啟計算體系架構再創(chuàng)新的密鑰
融合架構3.0:開啟計算體系架構再創(chuàng)新的密鑰

長按掃碼 閱讀全文