建一座殿堂之前,首先要立起足夠支撐其屋頂重量的支柱。
段玉裁在《說文解字注》里說,“柱之言主,屋之主也”。也就是說,支柱是一座屋子最主要,最基礎(chǔ)的東西。支柱不牢,再美好的雕梁畫棟也會歸為泡影。
在今天,我們正在以拳拳之心建設(shè)一座名為AI大模型的穹頂。預(yù)訓(xùn)練大模型通用性好、泛化性強的優(yōu)勢,讓各個行業(yè)都看到了走向智能化的曙光,點燃了社會經(jīng)濟的熾熱追尋。根據(jù)相關(guān)數(shù)據(jù),幾天之前在上海舉辦的世界人工智能大會上,就有超過30款中國AI大模型集中亮相。通觀整個中國,更是來到了“百模大戰(zhàn)”的盛況。根據(jù)科技部新一代人工智能發(fā)展研究中心等機構(gòu)發(fā)布的《中國人工智能大模型地圖研究報告》顯示,中國研發(fā)的大模型數(shù)量排名全球第二,并且在一些垂直領(lǐng)域?qū)崿F(xiàn)了全球領(lǐng)先。
仰望大模型的穹頂固然重要。但此時更該去思考,這座穹頂?shù)闹е欠駡詫嵖煽?,能撐起多大的重量?在傳輸、算力兩?a href="http://www.ygpos.cn/AI_1.html" target="_blank" class="keylink">AI基礎(chǔ)設(shè)施之外,存力對大模型發(fā)展的支撐意義,正在引發(fā)更多關(guān)注。
(華為數(shù)據(jù)存儲產(chǎn)品線總裁 周躍峰)
7月14日,大模型時代華為AI存儲新品發(fā)布會舉辦。期間,華為詳盡展示了大模型帶給存儲底座的挑戰(zhàn),以及華為在技術(shù)、產(chǎn)品、生態(tài)上選擇的應(yīng)對之道。
華為數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰在“數(shù)據(jù)新范式,釋放AI新動能”主題分享中表示:“大模型時代,數(shù)據(jù)決定AI智能的高度。作為數(shù)據(jù)的載體,數(shù)據(jù)存儲成為AI大模型的關(guān)鍵基礎(chǔ)設(shè)施。華為數(shù)據(jù)存儲未來將持續(xù)創(chuàng)新,面向AI大模型時代提供多樣化的方案與產(chǎn)品,攜手伙伴共同推進AI賦能千行百業(yè)?!?/p>
當(dāng)世界醉心于建設(shè)大模型的穹頂,存儲產(chǎn)業(yè)需要先樹起能夠支撐智能世界的支柱。面對大模型時代,華為存儲選擇了自己的擔(dān)當(dāng)。
假想:缺乏存力支撐的大模型時代會怎樣?
我們都知道,發(fā)展AI大模型還有很多層面的問題需要解決。比如可供訓(xùn)練的中文語料、數(shù)據(jù)集不足;大模型過于依賴人工調(diào)優(yōu),落地成本過大;對高端算力有依賴,算力資源稀缺等。
但在這些問題之外,我們必須正視這樣一個現(xiàn)實:假設(shè)大模型缺乏適配的存儲產(chǎn)品與存儲資源,那么結(jié)果可能也不容樂觀。在華為看來,在AI發(fā)展的不同領(lǐng)域與階段,面臨著數(shù)據(jù)存儲方面的4大挑戰(zhàn)。
首先是數(shù)據(jù)歸集太慢。大模型有著龐大的數(shù)據(jù)規(guī)模,且需要用到大量的非結(jié)構(gòu)化數(shù)據(jù)進行訓(xùn)練。這就導(dǎo)致AI訓(xùn)練需要從跨地域的多個數(shù)據(jù)源,進行大量的原始數(shù)據(jù)拷貝,如果這個過程過于復(fù)雜,效率過低,就會導(dǎo)致AI開發(fā)進度被擱置。尤其會嚴(yán)重限制那些本地數(shù)據(jù)規(guī)模龐大的行業(yè)落地大模型。
其次是數(shù)據(jù)預(yù)處理周期長。AI訓(xùn)練首先需要進行大量的數(shù)據(jù)預(yù)處理。尤其大模型數(shù)據(jù)規(guī)模龐大,數(shù)據(jù)預(yù)處理的工作量也隨之遞增。一個典型的百TB級大模型數(shù)據(jù)集,數(shù)據(jù)預(yù)處理工作經(jīng)常要超過10天,占AI數(shù)據(jù)挖掘全流程的30%。如果沒有針對性的存力幫助,隨著模型的不斷增大,數(shù)據(jù)預(yù)處理的工作量、工作時長以及消耗算力將持續(xù)增大,導(dǎo)致大模型的訓(xùn)練愈發(fā)艱難。
然后是數(shù)據(jù)集加載慢,訓(xùn)練易中斷。大模型的訓(xùn)練參數(shù)、訓(xùn)練數(shù)據(jù)集規(guī)模特別龐大,這就導(dǎo)致多種狀況都會影響到數(shù)據(jù)集的加載,從而導(dǎo)致模型訓(xùn)練的中斷甚至重來。尤其在訓(xùn)練復(fù)雜的模型結(jié)構(gòu)時,數(shù)據(jù)加載不順暢,易出錯會導(dǎo)致巨大的工作開銷增加。
比如根據(jù)相關(guān)數(shù)據(jù),OpenAI 在 GPT-4 的訓(xùn)練使用了約 25000 個 A100 GPU的算力,進行了90到100天的訓(xùn)練。其模型 flops 利用率僅有32%到36%。大量故障導(dǎo)致重新啟動檢查點,就是其算力利用率低的主要原因。如果不能解決這個問題,大模型不斷發(fā)展就意味著無盡的算力資源與人力資源將消耗在數(shù)據(jù)故障當(dāng)中,讓大模型的應(yīng)用成本難以承受。
此外還有一個挑戰(zhàn),是模型的推理實時性和精準(zhǔn)度低。大模型在推理部署時,需要將最新的數(shù)據(jù)隨時聯(lián)接進來,而目前主流方法訓(xùn)練時間長且成本高。如果不能克服這個挑戰(zhàn),將讓大模型的推理部署效果大打折扣,從而影響智能化的最終落地效果。
由此可見,大模型時代各家不僅需要比算法,比算力,比數(shù)據(jù),更需要比存力。具體而言,就是比拼存儲資源,比拼存儲體系應(yīng)對大模型需求的準(zhǔn)確性,比拼在數(shù)據(jù)側(cè)提升大模型訓(xùn)練推理效果的軟硬件適配。如果缺少存力這根支柱,就像缺少AI算力、缺少數(shù)據(jù)、缺少落地場景一樣,大模型時代是根本是不成立的。
建立:針對AI大模型的存儲支柱
好在,針對這樣的現(xiàn)實,存儲產(chǎn)業(yè)已經(jīng)行動了起來。比如面對大模型時代的AI存儲,就可以提供4大能力:針對數(shù)據(jù)歸集難題,華為可以通過數(shù)據(jù)編織能力,實現(xiàn)跨系統(tǒng)、跨地域、跨云的全局統(tǒng)一數(shù)據(jù)視圖和調(diào)度;針對數(shù)據(jù)預(yù)處理周期長的問題,華為打造了近存計算能力,讓數(shù)據(jù)在存儲完成數(shù)據(jù)準(zhǔn)備,更好釋放AI算力資源;針對訓(xùn)練易中斷等問題,華為通過預(yù)處理加速、AI訓(xùn)練/推理加速等技術(shù),實現(xiàn)訓(xùn)練過程0等待 。
把這些長期建設(shè)的技術(shù)能力與針對性解題思路聚合在一起,最終形成能夠應(yīng)對大模型存力挑戰(zhàn),適配大模型的開發(fā)與部署需求的產(chǎn)品與解決方案——這就是華為存儲為大模型穹頂,建立存儲支柱的方式。
這些技術(shù)能力,最終凝結(jié)成了本次發(fā)布的兩款產(chǎn)品:面向AI全流程,提供領(lǐng)先性能的OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲,以及能夠大幅降低AI使用門檻的FusionCube A3000訓(xùn)/推超融合一體機。
面向數(shù)據(jù)量不斷擴張,模型日新月異的AI大模型,高性能、有針對性的數(shù)據(jù)存儲底座是發(fā)展的必要條件,OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲就為此而生。其具備超高可擴展性,混合負載高性能,多協(xié)議無損融合互通,能夠?qū)崿F(xiàn)數(shù)據(jù)歸集、預(yù)處理、訓(xùn)練、推理的AI全流程海量數(shù)據(jù)管理。
面對AI計算與HPC合流的產(chǎn)業(yè)趨勢,OceanStor A310可以提供面向AI、HPC、大數(shù)據(jù)場景的同源數(shù)據(jù)分析能力,最大支持4096節(jié)點擴展,單框5U支持業(yè)界最高的400GB/s帶寬以及1200萬IOPS的最高性能,支持多協(xié)議無損融合互通,實現(xiàn)數(shù)據(jù)的0拷貝,全流程效率提升60%。OceanStor A310存儲通過近存計算,可以實現(xiàn)訓(xùn)練數(shù)據(jù)的預(yù)處理,預(yù)處理效率提升30%。利用全局文件系統(tǒng)GFS,接入分散在各地域的原始數(shù)據(jù),簡化數(shù)據(jù)歸集流程,從而將華為應(yīng)對AI大模型的存儲能力集中釋放,一次性接觸AI開發(fā)全流程的數(shù)據(jù)難題與存力挑戰(zhàn)。
未來,AI將融入千行百業(yè),重塑千行百業(yè)。這也就導(dǎo)致能夠適配更多行業(yè)場景、應(yīng)用場景的超融合一體機將成為產(chǎn)業(yè)智能化進程中的剛需。
為此,華為推出了FusionCube A3000訓(xùn)/推超融合一體機,面向行業(yè)大模型訓(xùn)練/推理場景,針對百億級模型應(yīng)用,集成了OceanStor A300高性能存儲節(jié)點、訓(xùn)/推節(jié)點、交換設(shè)備、AI平臺軟件與管理運維軟件,為大模型伙伴提供拎包入住式的部署體驗,實現(xiàn)一站式交付,做到開箱即用,2小時內(nèi)即可完成部署,可以說是打通了大模型落地的最后一公里。
訓(xùn)/推節(jié)點與存儲節(jié)點均可獨立水平擴展,以匹配不同規(guī)模的模型需求。同時FusionCube A3000通過高性能容器實現(xiàn)多個模型訓(xùn)練推理任務(wù)共享GPU,將資源利用率從40%提升到70%以上。
在這兩款產(chǎn)品的加持下,無論是探索智能化天花板的大模型開發(fā)訓(xùn)練,還是實現(xiàn)智能化落地的場景化部署,AI大模型都將得到有力的存力支持。
存力支柱,就這樣樹立在AI大模型時代的穹頂下。
未來:存儲支柱向上生長,AI穹頂指向天宇
面向縱深性、長期化的AI大模型發(fā)展,存儲產(chǎn)業(yè)如何提供持續(xù)的支持與幫助?對于這個問題,華為在發(fā)布會當(dāng)中也給出了自己的答案。在華為看來,大模型爆發(fā)并不應(yīng)該僅僅成為存儲產(chǎn)業(yè)的短期機遇。長期來看,AI與存儲應(yīng)該彼此促進,互為助力,形成長期積極發(fā)展的良性局面。
為此,華為首先將積極投入未來,持續(xù)在AI數(shù)據(jù)存儲方面進行研究和準(zhǔn)備。發(fā)布會現(xiàn)場,周躍峰與華為天才少年張霽進行了對話,討論了華為在數(shù)據(jù)歸集、數(shù)據(jù)訓(xùn)練、數(shù)據(jù)推理等方面如何提升存儲能力,幫助AI開發(fā)與落地做到更好。
比如說,面向跨地域歸集的數(shù)據(jù)安全流轉(zhuǎn)難題,華為正在研究被稱為“數(shù)據(jù)方艙”的技術(shù)。這項技術(shù)使得數(shù)據(jù)及其訪問權(quán)限、憑證信息實現(xiàn)全封裝,從而確保在流轉(zhuǎn)過程中數(shù)據(jù)處于安全、可靠的環(huán)境當(dāng)中。
這類對于未來AI技術(shù)發(fā)展趨勢的預(yù)判與研發(fā)投入,將成為華為在AI存儲領(lǐng)域持續(xù)打開產(chǎn)業(yè)空間的鑰匙,也將成為推動存儲產(chǎn)業(yè)迎接AI時代機遇的新動力。
另一方面,想要適配AI大模型帶來的產(chǎn)業(yè)發(fā)展空間,存儲產(chǎn)業(yè)必須依靠合作,建設(shè)生態(tài),從而才能夠向用戶提供綜合性、行業(yè)性的解決方案。
在生態(tài)化發(fā)展的驅(qū)動下,用戶開發(fā)大模型、應(yīng)用大模型過程中多樣性、復(fù)雜性的軟硬件需求將得到持續(xù)滿足,從而確保模型開發(fā)、落地暢通無阻。
整體而言,華為存儲既為火爆的AI大模型,提供了即刻能夠解決問題、實現(xiàn)資源滿足的存儲解決方案,也著眼未來發(fā)展,在存儲技術(shù)、生態(tài)上進行不斷的革新、生長。AI大模型與存儲底座,就像是穹頂與支柱的關(guān)系,支柱越來越高,穹頂?shù)母叨纫沧匀惶嵘?,智能化的極限才能不斷被打破。
為了能夠建好AI大模型的穹頂,華為存儲帶來了三方面的價值,真正實現(xiàn)了以存儲為支柱的產(chǎn)業(yè)擔(dān)當(dāng)。
首先,面對數(shù)據(jù)歸集、數(shù)據(jù)訓(xùn)練中斷等一系列真實存在AI訓(xùn)練部署難題,華為存儲以更好的技術(shù)帶來了解題思路,提供了應(yīng)對策略,從而在存儲與AI兩個技術(shù)領(lǐng)域間架起了橋梁,達成了供需之間的溝通。
其次,華為面向大模型訓(xùn)練與落地,都提供了資源更加充沛、利用更加合理的存儲底座。這將有助于優(yōu)化大模型的綜合成本,提升各行業(yè)利用大模型,適配大模型的可能性。
再次,華為在存儲領(lǐng)域推動的開放合作方案,可以推動存儲生態(tài)與AI生態(tài)相互促進。讓更多軟硬件企業(yè)加入到AI大模型的機遇中,分享智能時代紅利,從而全面促進存儲產(chǎn)業(yè)的發(fā)展與進化。
向下扎到根,向上捅破天的AI存儲支柱,在這些價值的凝聚下逐漸成型。
用好這根支柱,可以支撐AI大模型發(fā)展,提升大模型從訓(xùn)練到推理的全流程效率。
發(fā)展這根支柱,可以助力千行百業(yè)的智能化落地,打造出智能時代新的基礎(chǔ)設(shè)施。
站在這根支柱上,我們能夠看到第四次工業(yè)革命的晨光破曉。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。