華為云亮相KubeCon EU 2024,以持續(xù)開源創(chuàng)新開啟智能時代

3月21日,在巴黎舉辦的云原生頂級峰會KubeCon + CloudNativeCon Europe 2024上 ,華為云首席架構(gòu)師顧炯炯在“Cloud Native x AI:以持續(xù)開源創(chuàng)新開啟智能時代”的主題演講中指出,云原生和AI技術(shù)的融合,是推動產(chǎn)業(yè)深刻變革的關(guān)鍵所在。華為云將持續(xù)進行開源創(chuàng)新,與開發(fā)者共啟智能時代。

華為云首席架構(gòu)師顧炯炯發(fā)表演講

AI對于云原生范式提出關(guān)鍵挑戰(zhàn)

在過去的幾年里,云原生徹底改變了傳統(tǒng)的IT系統(tǒng),催化了互聯(lián)網(wǎng)和政府服務等領(lǐng)域的數(shù)字飛躍。云原生范式帶來的新的可能性,例如閃電般的快速銷售和基于微服務治理的敏捷應用DevOps,已經(jīng)深入人心。同時,人工智能的快速發(fā)展和廣泛采用,包括大規(guī)模模型,已經(jīng)成為行業(yè)智能的跳動心臟。

根據(jù)Epoch 2023年的調(diào)研數(shù)據(jù),基礎模型所需的計算能力每18個月就會增長10倍,是摩爾定理揭示的通用計算能力增長率的5倍。AI帶來的新摩爾定律和大規(guī)模AI模型的主導地位對云原生范式提出了挑戰(zhàn),顧炯炯總結(jié)了其中關(guān)鍵的4點:首先,低GPU/NPU平均利用率導致AI訓練和推理的高成本。其次,大模型訓練集群頻繁的失敗率限制了訓練效率。第三,大規(guī)模模型的復雜配置導致AI開發(fā)門檻高。第四,大規(guī)模的AI推理部署面臨著不可預測的最終用戶訪問延遲和數(shù)據(jù)隱私問題的風險。

華為云AI創(chuàng)新為開發(fā)者迎接挑戰(zhàn)提供思路

隨著AI模型變得越來越大,對計算能力的需求也呈指數(shù)級增長。這種需求不僅給云原生技術(shù)帶來了挑戰(zhàn),也為業(yè)界提供了創(chuàng)新機遇。顧炯炯分享了一些華為云在AI創(chuàng)新方面的故事,為開發(fā)者解決這些挑戰(zhàn)提供了參考。

在云原生邊緣計算平臺KubeEdge的基礎上,華為云實現(xiàn)了一個云原生多機器人調(diào)度管理平臺。用戶可以通過自然語言命令在云端輸入任務指令,由系統(tǒng)協(xié)調(diào)邊緣的多個機器人共同協(xié)作完成復雜任務。為了克服自然語言命令理解、大量機器人高效調(diào)度管理以及跨類型機器人訪問管理的三個挑戰(zhàn),該系統(tǒng)采用了云端、邊緣節(jié)點和機器人三個部分的架構(gòu),通過大模型執(zhí)行自然語言命令,并進行流量預測、任務分配和路由規(guī)劃。這一架構(gòu)顯著提高了機器人平臺的靈活性,管理效率提升25%,系統(tǒng)部署周期縮短30%,新機器人的部署時間從月級縮短到天級。

中國某頂級內(nèi)容分享社區(qū),每月活躍用戶超過1億。它的核心服務之一是主頁上的推薦功能。推薦模型有近1000億個參數(shù)。訓練集群有數(shù)千個計算節(jié)點。一個訓練作業(yè)需要數(shù)百個參數(shù)服務器和worker。因此,該社區(qū)對最優(yōu)拓撲調(diào)度、高性能、高吞吐量有著強烈的需求。開源項目Volcano可以更好地支持在Kubernetes上運行的AI/ML工作負載,并提供了一系列作業(yè)管理和高級調(diào)度策略。Volcano項目引入了拓撲感知調(diào)度、裝箱、SLA感知調(diào)度等算法,幫助社區(qū)將整體訓練性能提升了20%,運維復雜度也大大降低。

Serverless AI引領(lǐng)云原生發(fā)展趨勢

如何高效、穩(wěn)定地運行AI應用,同時降低運營成本,成為擺在眾多企業(yè)和開發(fā)者面前的一大挑戰(zhàn)。為此,華為云總結(jié)了云原生AI平臺的關(guān)鍵要求,提出了一種全新的云原生AI平臺理念——Serverless AI。

顧炯炯提到,從開發(fā)者的視角來看,Serverless AI致力于智能地推薦并行策略,讓復雜的訓練和推理任務變得輕而易舉。它提供自適應的GPU/NPU自動擴展功能,能夠根據(jù)工作負載的實時變化動態(tài)調(diào)整資源分配,確保任務的高效執(zhí)行。同時,Serverless AI還維護著一個無故障的GPU/NPU集群,讓開發(fā)者無需擔心硬件故障帶來的中斷風險。更值得一提的是,該平臺保持與主流AI框架的兼容性,讓開發(fā)者能夠無縫集成現(xiàn)有的AI工具和模型。

對于云服務提供商而言,Serverless AI同樣具有深遠的意義。它不僅能夠提高GPU/NPU的利用率,使訓練、推理和開發(fā)混合工作負載得以高效運行,還能通過優(yōu)化能效實現(xiàn)綠色計算,降低能耗成本。此外,Serverless AI平臺還能實現(xiàn)跨多個租戶的空間和時間GPU/NPU共享,提高資源的復用率。最重要的是,它為訓練和推理任務提供了有保證的QoS和SLA,確保了服務質(zhì)量和穩(wěn)定性。

Serverless AI平臺采用了構(gòu)建在操作系統(tǒng)和虛擬化之上的靈活的資源調(diào)度層,將應用程序框架的關(guān)鍵功能封裝于應用資源中介層中。顧炯炯現(xiàn)場展示了Serverless AI平臺的參考架構(gòu)。他認為,這種架構(gòu)設計,使得Serverless AI平臺具有了大規(guī)模AI資源自動驅(qū)動引擎的特點,包括精確了解應用資源利用模式的資源分析,實現(xiàn)異構(gòu)硬件資源池化的資源共享,基于GPU/NPU虛擬化和負載熱遷移的AI訓練任務容錯能力,以及提高資源利用率的多維度調(diào)度和自適應彈性伸縮等優(yōu)點。

分論壇上,華為云技術(shù)專家提到,Kubernetes 上運行 AI/ML 工作負載的使用量不斷增加,許多公司在分布于數(shù)據(jù)中心和各種 GPU 類型的多個 Kubernetes 集群上構(gòu)建云原生 AI 平臺。 使用Karmada和Volcano,可輕松實現(xiàn)多集群的GPU工作負載智能調(diào)度、集群故障轉(zhuǎn)移支持,在保障集群內(nèi)和跨集群的兩級調(diào)度一致性和效率,并平衡系統(tǒng)整體資源的利用率和不同優(yōu)先級工作負載的 QoS,以應對大規(guī)模、異構(gòu)的 GPU 環(huán)境管理中面臨的挑戰(zhàn)。

Karmada為多云和混合云場景中的多集群應用管理提供即時可用的自動化管理,越來越多的用戶在生產(chǎn)環(huán)境中使用Karmada構(gòu)建靈活高效的解決方案。Karmada已于2023年正式升級為CNCF孵化項目,期待與更多伙伴與開發(fā)者們共建繁榮社區(qū)。

針對AI分布式訓練和大數(shù)據(jù)場景,Volcano Gang Scheduling解決了分布式訓練任務中的無休止等待和死鎖問題, 任務拓撲和IO感知的調(diào)度,將分布式訓練的傳輸延遲降至最低,性能提升31%,minResources解決了高并發(fā)場景下Spark driver和executor之間的資源競爭問題,合理規(guī)劃了并行度,性能提升39.9%。

“云原生技術(shù)的敏捷性和異構(gòu)AI計算平臺的創(chuàng)新性,將是提升AI生產(chǎn)力的關(guān)鍵。” 顧炯炯談到,未來,華為云將持續(xù)致力于開源創(chuàng)新,與業(yè)界同仁、伙伴共同開啟智能時代的新篇章。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )