火山引擎發(fā)布大模型訓(xùn)練云平臺(tái):支持萬卡訓(xùn)練,集群性能提升3倍

4月18日消息,4月18日,火山引擎在其舉辦的“原動(dòng)力大會(huì)”上發(fā)布自研DPU等系列云產(chǎn)品,并推出新版機(jī)器學(xué)習(xí)平臺(tái):支持萬卡級大模型訓(xùn)練、微秒級延遲網(wǎng)絡(luò),讓大模型訓(xùn)練更穩(wěn)更快?;鹕揭婵偛米T待表示,AI大模型有巨大潛力和創(chuàng)新空間,火山引擎會(huì)服務(wù)客戶做好大模型,共同推動(dòng)各行業(yè)的智能化升級。

“國內(nèi)有數(shù)十家做大模型的企業(yè),大多已經(jīng)在火山引擎云上”,譚待認(rèn)為,大模型不會(huì)一家獨(dú)大。與其他云廠商力推自家大模型不同的是,火山引擎將接入多家大模型深度合作,為企業(yè)和消費(fèi)者提供更豐富的AI應(yīng)用。

會(huì)上,火山引擎宣布與字節(jié)跳動(dòng)國內(nèi)業(yè)務(wù)并池?;趦?nèi)外統(tǒng)一的云原生基礎(chǔ)架構(gòu),抖音等業(yè)務(wù)的空閑計(jì)算資源可極速調(diào)度給火山引擎客戶使用,離線業(yè)務(wù)資源分鐘級調(diào)度10萬核CPU,在線業(yè)務(wù)資源也可潮汐復(fù)用,彈性計(jì)算搶占式實(shí)例的價(jià)格最高可優(yōu)惠80%以上。

讓大模型訓(xùn)練快速跑起來

自2022年底發(fā)布以來,ChatGPT成為人類歷史上最快獲得上億用戶的消費(fèi)級互聯(lián)網(wǎng)應(yīng)用。最新的GPT-4大模型,更是在法律、數(shù)學(xué)、生物學(xué)等多項(xiàng)測試中超過90%人類。

譚待表示,國內(nèi)很多科技公司投入到大模型建設(shè)中,他們有優(yōu)秀的技術(shù)團(tuán)隊(duì),也有豐富的行業(yè)知識(shí)和創(chuàng)新想法,但往往缺乏經(jīng)過大規(guī)模場景實(shí)踐的系統(tǒng)工程能力?;鹕揭嬉龅木褪菫榇竽P涂蛻籼峁└叻€(wěn)定性和高性價(jià)比的AI基礎(chǔ)設(shè)施。

據(jù)悉,火山引擎機(jī)器學(xué)習(xí)平臺(tái)經(jīng)過抖音等海量用戶業(yè)務(wù)長期打磨,支持單任務(wù)萬卡級別的超大規(guī)模分布式并行訓(xùn)練場景。GPU彈性計(jì)算實(shí)例可靈活調(diào)度資源,隨用隨取,最高可以為客戶節(jié)省70%的算力成本。

字節(jié)跳動(dòng)副總裁楊震原認(rèn)為,業(yè)務(wù)創(chuàng)新需要試錯(cuò),試錯(cuò)要大膽、敏捷,但試錯(cuò)也一定要控制成本。通過潮汐、混部等方式,火山引擎實(shí)現(xiàn)資源的高利用率和極低成本。以抖音推薦系統(tǒng)為例,工程師用15個(gè)月的樣本訓(xùn)練某個(gè)模型,5小時(shí)就能完成訓(xùn)練,成本只有5000元?;鸨W(wǎng)的抖音“AI繪畫”特效,從啟動(dòng)到上線只用一周多時(shí)間,模型由一名算法工程師完成訓(xùn)練。

字節(jié)跳動(dòng)副總裁楊震原分享抖音的機(jī)器學(xué)習(xí)實(shí)踐

MiniMax是目前國內(nèi)少數(shù)已經(jīng)推出自研大模型產(chǎn)品的AI技術(shù)公司,擁有文本、視覺、聲音三種通用大模型引擎能力。據(jù)MiniMax聯(lián)合創(chuàng)始人楊斌介紹,MiniMax與火山引擎合作建立了超大規(guī)模實(shí)驗(yàn)平臺(tái),實(shí)現(xiàn)千卡級常態(tài)化訓(xùn)練;超大規(guī)模推理平臺(tái)有萬卡級算力池,支撐單日過億次調(diào)用。在火山引擎的云上,MiniMax大模型業(yè)務(wù)實(shí)現(xiàn)快速突破。

譚待透露,火山引擎的大模型云平臺(tái)獲得智譜AI、昆侖萬維等眾多企業(yè)的良好反饋。國內(nèi)大模型領(lǐng)域,七成以上已是火山引擎客戶。

向“多云多模型”架構(gòu)演進(jìn)

有評論稱,大模型將成為云廠商彎道超車的機(jī)會(huì)。譚待對此表示,大模型還在發(fā)展初期,面臨數(shù)據(jù)安全、內(nèi)容安全、隱私保護(hù)、版權(quán)保護(hù)等許多問題需要努力解決。但可以預(yù)見,大模型將帶動(dòng)云上AI算力急劇增長,AI算力的工作負(fù)載與通用算力的差距會(huì)越來越小,這會(huì)為各家云廠商帶來新的機(jī)會(huì),同時(shí)也會(huì)對數(shù)據(jù)中心、軟硬件棧、PaaS平臺(tái)帶來新的挑戰(zhàn)。

以數(shù)據(jù)中心的算力結(jié)構(gòu)為例,譚待表示:“大模型需要大算力,虛擬化會(huì)帶來資源損耗,規(guī)模越大就損耗越多。未來3年內(nèi),大規(guī)模的算力中心,都將形成‘CPU+GPU+DPU’的混合算力結(jié)構(gòu),CPU負(fù)責(zé)通用計(jì)算,GPU負(fù)責(zé)AI計(jì)算,DPU負(fù)責(zé)資源卸載、加速和隔離,提升資源效率”。

此次原動(dòng)力大會(huì)上,火山引擎發(fā)布了新一代自研DPU,實(shí)現(xiàn)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的全組件卸載,釋放更多資源給業(yè)務(wù)負(fù)載?;鹕揭姹M管是“最年輕”的云廠商,其自研DPU已達(dá)到業(yè)界領(lǐng)先水平,網(wǎng)絡(luò)性能高達(dá)5000萬pps轉(zhuǎn)發(fā)能力、延遲低至20us?;谧匝蠨PU的各類計(jì)算實(shí)例性能也有顯著提升,例如適用于大模型分布式并行訓(xùn)練場景的GPU實(shí)例,相較上一代實(shí)例集群性能最高提升3倍以上。

自動(dòng)駕駛公司毫末智行與火山引擎合作打造智算中心,為DriveGPT自動(dòng)駕駛生成式預(yù)訓(xùn)練模型提供強(qiáng)大的算力支持。毫末智行CEO顧維灝介紹,DriveGPT使用量產(chǎn)車4000萬公里的人駕數(shù)據(jù)訓(xùn)練,參數(shù)規(guī)模達(dá)1200億,對自動(dòng)駕駛認(rèn)知決策模型進(jìn)行持續(xù)優(yōu)化。

譚待表示,在大模型及下游應(yīng)用發(fā)展推動(dòng)下,無論傳統(tǒng)企業(yè)還是初創(chuàng)企業(yè),對AI算力都有迫切需求,企業(yè)使用多家云服務(wù)將成為常態(tài)。同時(shí),各行業(yè)有自己高質(zhì)量的私有語料,大模型不會(huì)一家獨(dú)大,而是會(huì)在千行百業(yè)生長,形成多模型共生甚至協(xié)作的生態(tài)。“未來將是‘多云多模型’的時(shí)代”,譚待稱。

火山引擎總裁譚待宣布支持“多云多模型”的未來架構(gòu)

火山引擎也順勢推出了分布式云原生平臺(tái)、多云安全、多云CDN、veStack混合云平臺(tái)等系列產(chǎn)品,支持客戶更好地使用多家云服務(wù)?!白止?jié)跳動(dòng)用過全球幾乎每一朵公有云,以及大多數(shù)CDN,形成一套完整的分布式云管理體系和架構(gòu)實(shí)踐”,譚待堅(jiān)信火山引擎是最懂多云和分布式云的云服務(wù)商,這些技術(shù)能力都會(huì)毫無保留地提供給客戶。

楊震原進(jìn)一步表示,火山引擎對內(nèi)對外提供統(tǒng)一的產(chǎn)品,抖音、今日頭條等APP開屏都加上了“火山引擎提供計(jì)算服務(wù)”。楊震原說:“數(shù)字化時(shí)代,機(jī)器學(xué)習(xí)可以智能、高效地圍繞目標(biāo)解決問題。數(shù)字化的下一步是智能化,我們在機(jī)器學(xué)習(xí)方面的技術(shù)積累和經(jīng)驗(yàn),都會(huì)通過火山引擎提供給外部客戶,幫助更多企業(yè)做好智能化”。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-04-18
火山引擎發(fā)布大模型訓(xùn)練云平臺(tái):支持萬卡訓(xùn)練,集群性能提升3倍
火山引擎要做AI大模型“發(fā)動(dòng)機(jī)”

長按掃碼 閱讀全文