在 KubeCon + CloudNativeCon + Open Source Summit China 2021 大會上, 英特爾®有多場技術(shù)分享,這里要給大家特別推薦的一場分享為:
Friday, December 10 • 11:20 - 11:55
深入研究:基于 CRI-RM 的中央處理器和非統(tǒng)一內(nèi)存訪問架構(gòu)親和性實(shí)現(xiàn)人工智能任務(wù)加速
歡迎大家來交流。
在這個(gè)議題中,演講嘉賓將就開源項(xiàng)目 CRI-RM 以及它在浪潮 AIStation 的實(shí)際應(yīng)用跟大家分享。
CRI-RM(Container Runtime Interface, Resource manager), 是英特爾®初創(chuàng)的一個(gè)開源項(xiàng)目,其目的是通過在節(jié)點(diǎn)上的動態(tài)劃分系統(tǒng)資源,配合 Kubernetes 調(diào)度器,實(shí)現(xiàn)在節(jié)點(diǎn)層面上的最優(yōu)任務(wù)編排,把 Intel® 平臺的特性完美的適配到 Kubernetes 的集群環(huán)境里。
AIStation 是浪潮發(fā)布的人工智能開發(fā)平臺,面向深度學(xué)習(xí)開發(fā)訓(xùn)練場景,全面整合 AI 計(jì)算資源、訓(xùn)練數(shù)據(jù)資源以及 AI 開發(fā)工具。
隨著 AI 技術(shù)創(chuàng)新、場景化 AI 應(yīng)用持續(xù)落地,越來越多的企業(yè)開始嘗試搭建 AI 平臺,進(jìn)行 AI 技術(shù)開發(fā)、模型訓(xùn)練,并將其應(yīng)用到業(yè)務(wù)流程之中。但是,AI 平臺的搭建并非一蹴而就。從 AI 模型的開發(fā),到最終進(jìn)入到生產(chǎn)部署階段,企業(yè)將面臨資源管理、模型測試等帶來的不同挑戰(zhàn),同時(shí)還需要能夠充分發(fā)揮 CPU 等硬件的性能潛力,提升 AI 訓(xùn)練性能。
浪潮與英特爾合作,利用基于容器運(yùn)行時(shí)接口的資源管理器 CRI-RM 進(jìn)行了 AI 訓(xùn)練加速實(shí)踐,可以在 K8s 集群上,按照拓?fù)滟Y源實(shí)現(xiàn)物理主機(jī)的最優(yōu)分配,從而突破使用 K8s 原生 CPU 管理機(jī)制所帶來的性能瓶頸,大幅提升 AI 計(jì)算的性能。
AI 模型訓(xùn)練進(jìn)入云原生時(shí)代,算力挑戰(zhàn)浮出水面,提到 AI 模型訓(xùn)練,不少開發(fā)者腦海中浮現(xiàn)出的是繁瑣的資源申請與管理流程、巨大的算力消耗、漫長的模型訓(xùn)練時(shí)間……而云原生技術(shù)的出現(xiàn),能夠在很大程度上化解 AI 資源的調(diào)度難題。通過 K8s ,企業(yè)將能夠管理云平臺中多個(gè)主機(jī)上的容器化應(yīng)用,實(shí)現(xiàn) AI 資源的統(tǒng)一部署、規(guī)劃、更新和維護(hù),能夠有效提高用戶的 AI 資源管理率,提升平臺的可管理性、可擴(kuò)展性、彈性與可用性。
浪潮 AIStation 應(yīng)運(yùn)而生。面向人工智能企業(yè)訓(xùn)練開發(fā)與服務(wù)部署場景,浪潮 AIStation包含完整的模型開發(fā)、訓(xùn)練和部署全流程,可視化開發(fā)、集中化管理等特性,能夠?yàn)橛脩籼峁└咝阅艿?AI 計(jì)算資源,實(shí)現(xiàn)高效的計(jì)算力支撐、精準(zhǔn)的資源管理和調(diào)度、敏捷的數(shù)據(jù)整合及加速、流程化的 AI 場景及業(yè)務(wù)整合。
圖:浪潮 AIStation V3 架構(gòu)圖
要通過 AIStation 構(gòu)建 AI 應(yīng)用平臺,需要進(jìn)行的一個(gè)重要抉擇便是:算力如何提供?雖然GPU 被普遍用于 AI 訓(xùn)練,但這并不意味著 GPU 是唯一選擇。事實(shí)上,在大量的行業(yè)場景中,用戶希望充分利用既有的 CPU 計(jì)算資源,靈活地滿足 AI 等多種負(fù)載的要求,同時(shí)減少資本支出。 但是,在 K8s 集群上使用 CPU 進(jìn)行訓(xùn)練,用戶會遇到一定的性能瓶頸。這是因?yàn)?K8s 原生的 CPU 管理機(jī)制沒有考慮 CPU 綁定與 NUMA 親和性,高版本的 K8s 只會對 QOS 為 Guaranteed 的 Pod 生效,這可能會導(dǎo)致 CPU 在 AI 訓(xùn)練中無法充分發(fā)揮性能。
CRI-RM 優(yōu)化助力浪潮 AIStation 突破性能瓶頸,在發(fā)現(xiàn) K8s 集群上的 AI 算力瓶頸之后,浪潮與英特爾展開了深入合作,使用 CRI-RM(基于容器運(yùn)行時(shí)接口的資源管理器)技術(shù)對 K8s 進(jìn)行了優(yōu)化。該組件可以插在 Kubelet 和 Container Runtime(CR) 之間,截取來自 Kubelet CRI 協(xié)議的請求,扮演 CR 的非透明代理,跟蹤所有集群節(jié)點(diǎn)容器狀態(tài),能夠更好地將處理器、內(nèi)存、IO 外設(shè)和內(nèi)存控制器等資源分配給應(yīng)用負(fù)載,從而有效提升性能表現(xiàn)。
在TensorFlow CNN測試用例中,這一優(yōu)化被證明能夠?qū)崿F(xiàn)高達(dá) 57.76% 的性能提升[1]。這意味著在未對硬件配置進(jìn)行更新的前提下,CRI-RM 的應(yīng)用會帶來大幅度的性能提升,使得用戶無需在進(jìn)行硬件投入便能夠獲得可觀的 AI 訓(xùn)練性能提升,從而提高基礎(chǔ)設(shè)施的利用效率,并節(jié)約總體擁有成本 (TCO)。
圖:使用 CRI-RM 進(jìn)行優(yōu)化前后的性能對比
(Tensorflow | model: customized cnn,越低越好)
在此次優(yōu)化的基礎(chǔ)上,浪潮與英特爾還在探索在基于第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器的 HPC 集群上進(jìn)行進(jìn)一步的性能驗(yàn)證,并計(jì)劃在利用 CPU 進(jìn)行人工智能推理和訓(xùn)練方面進(jìn)行更為廣泛的合作,通過硬件選型、軟件優(yōu)化、系統(tǒng)集成等多種不同的方式,加速從云端到邊緣基礎(chǔ)設(shè)施上的人工智能性能表現(xiàn)。
查看完整方案文,請?jiān)L問此方案
[1] 數(shù)據(jù)援引自浪潮內(nèi)部測試結(jié)果;測試配置:英特爾至強(qiáng)金牌6132處理器 @ 2.60GHz,28 核,56 線程,192GB內(nèi)存,Centos 7.8.2003,Kubernetes 1.14.8,Docker 19.03,AIStation 3.1
KubeCon + CloudNativeCon + Open Source Summit China 2021 由云原生計(jì)算基金會 CNCF 主辦。作為云原生領(lǐng)域的頂級技術(shù)盛會,歷年的 KubeCon + CloudNativeCon + Open Source Summit China 都匯聚了國內(nèi)外最活躍的開源云原生社區(qū)、最先進(jìn)的技術(shù)代表與行業(yè)的最佳落地實(shí)踐,推動云原生計(jì)算領(lǐng)域的知識更新和技術(shù)進(jìn)步。本屆大會的議程安排現(xiàn)已全面上線,更多詳情請查看大會官網(wǎng)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )