從PUE到CUE:高效計算中心建設需要有效算力評測體系

極客網(wǎng)·極客觀察8月9日 2022年7月29日,首屆中國算力大會在山東濟南拉開帷幕。這是全國首個以數(shù)據(jù)中心算力賦能為主題的省部聯(lián)辦會議,會上重磅發(fā)布了我國首個算力產(chǎn)業(yè)發(fā)展指數(shù)、《算力白皮書》《算力設施產(chǎn)業(yè)圖譜》等系列成果,規(guī)格高、參與廣、內(nèi)容實、成果豐,引發(fā)了社會各界的廣泛關注。

會上,由中國電子技術標準化研究院聯(lián)合華為技術有限公司及鵬城實驗室、北京航空航天大學、中國移動、中國電信、中國聯(lián)通、武漢人工智能計算中心、西安未來人工智能計算中心等單位編寫的《計算中心有效算力評測體系白皮書》正式發(fā)布。白皮書首次定義了計算中心有效算力的概念和內(nèi)涵,給出了有效算力的評測指標和評測方法,以及有效算力和有效算力評測指標體系的應用場景、標準進展與下一步規(guī)劃等,為計算中心新基建高質(zhì)量建設指明了方向,尤其引人注目。

1280.jpg

在今天的數(shù)字世界里,相信大家對算力的魔力已經(jīng)不陌生。智能手機里的APP越來越懂你的愛好習性,電商平臺的客服機器人幾乎能夠回答你的所有問題,工廠里的智能機器人能夠從事越來越多的生產(chǎn)作業(yè),馬路上穿梭的車輛中偶爾會出現(xiàn)一輛“無人駕駛”的出租車……背后都離不開算力的支持。

那么時至今日,業(yè)界為什么要提出有效算力,并致力于構(gòu)建有效算力評測體系?它是如何評測的,相比傳統(tǒng)評測方式有何獨特價值?這一舉措對當前我國推動人工智能計算中心等算力基礎設施建設有何意義?讓我們一探究竟。


高效計算中心建設成為必答題,算力評測體系升級勢在必行

數(shù)字經(jīng)濟時代,算力已成為生產(chǎn)力,重大科研突破與產(chǎn)業(yè)發(fā)展都需要大算力的支撐,這對計算中心新基建的發(fā)展提出了更高的要求。近年來,以人工智能計算中心為代表的算力基礎設施成為各地建設熱點,國家總體布局設計“東數(shù)西算”,更是要將包括人工智能計算中心、一體化大數(shù)據(jù)中心、超算中心在內(nèi)的計算中心聯(lián)接起來,組成全國一體化算力網(wǎng)絡,全面支撐數(shù)字經(jīng)濟高質(zhì)量發(fā)展。

與此同時,計算中心的高速增長也帶來了一系列能源消耗問題,使得計算中心發(fā)展站在了實現(xiàn)國家“雙碳”目標的第一線,這要求各地在設計建設計算中心時,不僅要關注市場所需的算力場景和算力總量,還得重視相應的能耗和碳排。這對算力的效率提出了更高要求,高效計算中心建設成為必答題。只有通過節(jié)能、增效兩手抓應對能耗,才能建設高質(zhì)量的計算中心,提升算力質(zhì)量。

質(zhì)量提升,標準先行。要建設高質(zhì)量計算中心,提升算力質(zhì)量,首當其沖的就是需要構(gòu)建合適的算力評測體系。

這些年來,從最基本的能源使用效率PUE(Power?Usage?Effectiveness)、芯片標稱的規(guī)格算力,到SPEC關注單機或單服務器的單臺設備性能評價,IO500重點呈現(xiàn)的系統(tǒng)整體存儲方面的性能,再到通過真實應用完整呈現(xiàn)整系統(tǒng)能力的AIbench和MLperf等,算力評價指標正逐步從單點、部件能力評測過渡到場景化、全棧全場景業(yè)務生產(chǎn)力評價?!队嬎阒行挠行懔υu測體系白皮書》提出的計算中心有效算力,正是要通過評測真實業(yè)務性能表現(xiàn),來衡量算力基礎設施對業(yè)務的支撐效果,也就是業(yè)務實際可獲得的算力水平。相比規(guī)格算力更偏向于統(tǒng)計意義上算力的數(shù)量,有效算力更強調(diào)算力的質(zhì)量。

相應地,計算中心有效算力評測體系確立了一個規(guī)范有效算力如何進行計量的指標體系,其包含了方法、工具和數(shù)據(jù)集等。該評測體系的核心是有效算力指標(CUE:Computing Usage Effectiveness),用以表示有效算力的量化數(shù)據(jù)。CUE公式的設立,可以有效避免多個真實業(yè)務性能測試所帶來的單位不統(tǒng)一、描述過于復雜等局面,通過幾何加權平均的方式獲得一個單一數(shù)值,有助于進行定量、對比性分析。


有效算力評測率先落地人工智能領域,全棧垂直優(yōu)化價值凸顯 

從白皮書披露的情況看,計算中心有效算力評測方法與評測體系的標準化已經(jīng)率先落地人工智能領域。這不難理解,因為據(jù)權威機構(gòu)預測,隨著視頻、圖片等更多需要AI技術來處理的非機構(gòu)化數(shù)據(jù)的大量涌現(xiàn),未來10年通用算力將增長10倍,而人工智能算力將增長500倍,算力的增量將主要是AI算力。

2021年8月26日,由中國電子技術標準化研究院牽頭起草,中國科學院軟件研究所、北京航空航天大學、華為技術有限公司等共同研制的T/CESA 1169—2021《信息技術人工智能服務器系統(tǒng)性能測試規(guī)范》發(fā)布,并于同年9月1日起實施。該標準提出了有效算力指標公式,制定了面向人工智能計算中心的有效算力測試集,并給出了人工智能領域的有效算力測試方法,展現(xiàn)了CUE測試的獨特價值。

在人工智能領域,實際吞吐率代表人工智能服務器系統(tǒng)對特定訓練或推理作業(yè)的有效計算能力。提升有效計算能力可達到硬件系統(tǒng)擴容的效果。有效算力的提升,軟件方面的優(yōu)化可包含如計算設備加速庫中算子的優(yōu)化、軟件棧的輕量化等技術的應用。比如對特定訓練作業(yè)的有效計算能力,是單位時間內(nèi)訓練過程能消耗的樣本數(shù)量(視覺類測試是圖片數(shù)每秒、自然語言處理類測試是句數(shù)每秒)。評價人工智能服務器系統(tǒng)的綜合訓練能力,可將多個代表性訓練作業(yè)的有效計算能力綜合起來,形成整系統(tǒng)的有效計算能力,即根據(jù)上述公式,計算整系統(tǒng)在給定任務集合S上,實際吞吐率與每任務基線吞吐率之比的加權幾何平均。

從中可見,在一定規(guī)模規(guī)格算力集群系統(tǒng)上進行有效算力測試,通過優(yōu)化硬件配置、基礎軟件版本以及應用參數(shù)等,可以實現(xiàn)全棧優(yōu)化的效果,并根據(jù)實測工具獲得最終性能數(shù)值。這樣的數(shù)值可以作為不同技術路線集群系統(tǒng)的性能對比,以牽引技術架構(gòu)與軟硬件設計的演進。

換句話說,有效算力評測體現(xiàn)的是全棧垂直優(yōu)化的價值,可真實反映計算中心資源使用情況,通過效能分析,指導計算中心面向業(yè)務場景,從全棧融合的角度——自機房、能源基礎設施、硬件基礎設施至軟件基礎設施各層的整體設計與建設,提高計算中心資源使用率。


有效算力推動算力基礎設施建設,人工智能計算中心建設提速

很顯然,這樣的評測指標和方法立足真實業(yè)務應用性能,覆蓋了計算中心全生命周期,可用于評價計算中心建設的綠色性、先進性、實用性。各地的建設主體可按照有效算力標準對計算中心進行系統(tǒng)化設計,牽引軟硬件的深度協(xié)同,從全棧優(yōu)化中獲取更優(yōu)的有效算力,實現(xiàn)從能耗比到算能比的演進,提升資源可分配的效能。

當前,在數(shù)字經(jīng)濟高質(zhì)量發(fā)展、“東數(shù)西算”、“雙碳”目標等國策的綜合牽引下,全國各地的人工智能計算中心、一體化大數(shù)據(jù)中心、超算中心等算力基礎設施建設正如火如荼。在這些大并行/并發(fā)集群系統(tǒng)特征更為明顯的業(yè)務場景,有效算力評測體系整系統(tǒng)評測、全棧垂直優(yōu)化的理念和方法將最能夠更好地推動算力基礎設施建設。

資料顯示,華為等業(yè)界伙伴也已基于該體系在計算中心的項目建設中取得顯著成效。早在2021年9月,面向人工智能計算中心、高性能計算中心,和一體化大數(shù)據(jù)中心等多種場景,華為已經(jīng)推出集群計算解決方案,通過系統(tǒng)工程與架構(gòu)創(chuàng)新,實現(xiàn)從能源效率指標PUE最佳到有效算力指標CUE最佳的跨越。目前,該集群計算解決方案已用于武漢、西安、中原、成都、南京、杭州等各地的人工智能計算中心項目。

在先行者的帶動之下,全國20多個城市已陸續(xù)啟動或規(guī)劃了人工智能計算中心的建設。就在本屆中國算力大會期間,華為透露今年5月開建的青島人工智能計算中心項目預計將于9月上線投運,同時還在積極配合濟南人工智能計算中心的建設。這些已上線或即將上線的人工智能計算中心,大部分已經(jīng)或?qū)⒁尤胫袊懔W(wǎng)絡,推動全國算力一張網(wǎng)的整體布局。

細究這些人工智能計算中心快速建設上線并高效運行的背后,可以發(fā)現(xiàn)它們均以昇騰AI基礎軟硬件平臺為基礎,并引入CUE指標做了全棧設計與優(yōu)化,讓“計算中心作為一臺計算機”高效運轉(zhuǎn),在支持AI、HPC、大數(shù)據(jù)等多種算力場景的同時,實現(xiàn)了各類算力的高效利用,大幅提升了有效算力。


寫在最后:

有預測指出,算力指數(shù)每提高1%,國家的數(shù)字經(jīng)濟和GDP將分別增長3.5‰和1.8‰。工信部數(shù)據(jù)顯示,2021年底我國算力核心產(chǎn)業(yè)規(guī)模達1.5萬億元,位居全球第二,近五年平均增速超過30%,帶動關聯(lián)產(chǎn)業(yè)規(guī)模超過8萬億元。很顯然,提供算力生產(chǎn)力的計算中心,將成為現(xiàn)代科技與產(chǎn)業(yè)發(fā)展的加速器,數(shù)字化社會必備的基礎設施。

當算力逐步成為經(jīng)濟社會的基礎設施,其價值不僅在“量”,更需要“質(zhì)”,正如《計算中心有效算力評測體系白皮書》所述——將以有效算力為衡量方式牽引計算中心新型基礎設施高質(zhì)量建設,達到以業(yè)務應用為牽引、以全棧優(yōu)化為手段、以節(jié)能增效為目標的計算中心建設,提升計算中心新型基礎設施建設的質(zhì)量,支撐數(shù)字經(jīng)濟等宏觀政策與頂層設計落地。


極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2022-08-09
從PUE到CUE:高效計算中心建設需要有效算力評測體系
白皮書首次定義了計算中心有效算力的概念和內(nèi)涵,給出了有效算力的評測指標和評測方法,以及有效算力和有效算力評測指標體系的應用場景、標準進展與下一步規(guī)劃等,為計算中心新基建高質(zhì)量建設指明了方向,尤其引人注目。

長按掃碼 閱讀全文