華為云AI-Native智算存儲,加速AI推理應(yīng)用

9月20日,在華為全聯(lián)接大會2024期間,華為云成功舉辦AI Native Cloud主題論壇。華為云在論壇上解讀業(yè)界首家以內(nèi)存池為中心的大模型推理存儲架構(gòu),以及AI-Native智算存儲如何使能模型加載快、對話問答快和查詢檢索快,邀請行業(yè)領(lǐng)袖分享AI推理技術(shù)及華為云基礎(chǔ)設(shè)施在游戲、影視制作、辦公軟件等領(lǐng)域的應(yīng)用成果。

EMS助力大語言模型降時延、提吞吐

顯存有限是業(yè)界公認(rèn)的影響大模型訓(xùn)練和推理效率的一個難點(diǎn),也就是業(yè)界所說的內(nèi)存墻難題。“華為云首創(chuàng)EMS彈性內(nèi)存存儲服務(wù),在NPU顯存和持久化存儲兩層間增加彈性內(nèi)存存儲層?;贛emory Pooling專利技術(shù),通過顯存擴(kuò)展、算力卸載、以存代算三大創(chuàng)新打破內(nèi)存墻。”華為云首席產(chǎn)品官方國偉在《AI Native Cloud: 全新為AI負(fù)載和應(yīng)用設(shè)計的云基礎(chǔ)設(shè)施》主題演講中指出。

華為云首席產(chǎn)品官 方國偉

EMS彈性內(nèi)存存儲服務(wù)為AI推理應(yīng)用帶來3大價值:

•以存代算,緩存和復(fù)用歷史KV計算結(jié)果,首Token時延降低 80%;

•算力卸載,KV計算卸載至CPU+EMS,吞吐量提升100%;

•顯存擴(kuò)展,無需堆砌NPU,NPU算力節(jié)省50%。

AI推理應(yīng)用已在各行各業(yè)開花結(jié)果。作為中國首個游戲人工智能實(shí)驗(yàn)室,網(wǎng)易伏羲每年都會在游戲AI領(lǐng)域推出新的玩法。今年,網(wǎng)易伏羲推出了全球首創(chuàng)的游戲Copilot AI隊(duì)友,為玩家?guī)斫z滑的多模態(tài)游戲交互體驗(yàn)。其中,為了實(shí)現(xiàn)近乎真人的問答效果,時延成了一大挑戰(zhàn)。“我們與華為云聯(lián)合創(chuàng)新,在伏羲的多輪對話和公共前綴場景使用EMS內(nèi)存存儲進(jìn)行體驗(yàn)優(yōu)化,測試結(jié)論顯示了4大優(yōu)化:更大的容量,有了EMS,算力卡可以搭配TB級的虛擬顯存;更高的吞吐,測試結(jié)果顯示,QPS請求數(shù)提升了40%;更低的時延,EMS使能首字節(jié)時延降低84%;更高的效率,P95時延降低了32%。真正地做到了以存強(qiáng)算,讓Copilot AI隊(duì)友可以實(shí)現(xiàn)如真人般的流暢對話。”網(wǎng)易伏羲語音技術(shù)負(fù)責(zé)人莫名在《AI x 游戲,可實(shí)時語音交互的游戲隊(duì)友》主題演講中表示。

網(wǎng)易伏羲語音技術(shù)負(fù)責(zé)人 莫名

近日國產(chǎn)3A游戲爆火,讓大家看到了國內(nèi)CG(計算機(jī)圖形學(xué))動畫技術(shù)的日新月異。作為國內(nèi)頭部的電影視效公司,墨境天合創(chuàng)新地將大語言模型及圖像模型應(yīng)用到視效制作中。“在劇本拆解、鏡頭規(guī)劃場景中,墨境天合使用AI輔助加速傳統(tǒng)人工工作內(nèi)容,顯著提升了視效制作效率。在劇本拆解應(yīng)用中,將劇本內(nèi)容作為同樣的文本多次輸入,受顯存限制,每一輪與LLM的交互均需重新計算,越問越慢,且劇本內(nèi)容越長,對時延的影響越大。我們與華為云存儲進(jìn)行了聯(lián)合創(chuàng)新測試,結(jié)果顯示:使用EMS后首字節(jié)時延降低了75%,吞吐量增加了22%,大大提高了劇本拆解和鏡頭規(guī)劃工具應(yīng)用的效率。”墨境天合AI算法工程師負(fù)責(zé)人李晨陽在主題演講《AI x視效制作,探索人工智能在影視制作中的應(yīng)用與突破》中表示。

墨境天合AI算法工程師負(fù)責(zé)人 李晨陽

OBS知識湖存儲使能海量數(shù)據(jù)高效檢索

大語言模型與企業(yè)業(yè)務(wù)場景結(jié)合的過程中,RAG(檢索增強(qiáng)生成技術(shù))是目前最成熟也是應(yīng)用最普遍的關(guān)鍵技術(shù)。在將RAG應(yīng)用到生產(chǎn)環(huán)境中時,如何高效的處理企業(yè)海量規(guī)模的非結(jié)構(gòu)化數(shù)據(jù),仍然面臨諸多工程上的挑戰(zhàn)。方國偉表示:“華為云基于OBS服務(wù)構(gòu)建了實(shí)現(xiàn)語義向量化的知識湖存儲,簡化客戶針對海量數(shù)據(jù)實(shí)現(xiàn)RAG方案的難度?;谧x、寫、算分離把千億級規(guī)模場景下數(shù)據(jù)的讀性能從百毫秒級降到10毫秒以內(nèi)。同時,我們把對性能要求高、訪問頻繁的索引層放在內(nèi)存,并結(jié)合超高性價比的對象存儲來實(shí)現(xiàn)持久化。通過高低結(jié)合,不僅性能更高,整個成本做得更優(yōu),實(shí)現(xiàn)50%的成本降低。”

華為云首席產(chǎn)品官 方國偉

WPS AI是金山辦公旗下基于大語言模型的人工智能辦公助手,錨定AIGC(內(nèi)容創(chuàng)作)、Copilot(智慧助理)、Insight(知識洞察)三個戰(zhàn)略方向發(fā)展。如果把大模型比做發(fā)動機(jī),那么企業(yè)知識就是燃料。為了更好地搭建企業(yè)知識與大模型之間的橋梁,金山辦公提出了AI Docs智能文檔庫解決方案,使能全程閉環(huán)的可控智能。“今天的企業(yè)AI知識庫,仍然面臨眾多的技術(shù)挑戰(zhàn)。其中如何支持千億規(guī)模的文檔量級、在大并發(fā)請求的同時保持高效檢索、消減數(shù)據(jù)幻覺是數(shù)據(jù)存儲面臨的挑戰(zhàn)。為了解決傳統(tǒng)向量數(shù)據(jù)庫明顯的讀寫性能和成本問題。AI Docs目前在和華為云OBS知識湖存儲進(jìn)行共創(chuàng),探索能夠支持更大規(guī)模的文檔量級、檢索更精準(zhǔn)、速度更快的使用體驗(yàn),給企業(yè)AI提供更好的賦能。”金山辦公助理總裁朱熠鍔在《AI x辦公,WPS AI 高效智慧辦公助力企業(yè)提效》主題演講中指出。

金山辦公助理總裁 朱熠鍔

全面智能化時代已然來臨,每個行業(yè)、每個企業(yè)都有自己的探索。華為云存儲正積極響應(yīng)推理模型崛起的變革,通過不斷創(chuàng)新為千行萬業(yè)提供安全可靠、穩(wěn)定高效的云存儲產(chǎn)品與解決方案,攜手客戶、伙伴,共贏數(shù)智未來。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )