華為攜手科大訊飛:國產(chǎn)算力突破瓶頸,專家并行集群推理引領未來智能浪潮
隨著科技的飛速發(fā)展,人工智能(AI)已成為推動全球產(chǎn)業(yè)變革的重要驅(qū)動力。華為與科大訊飛研究院的聯(lián)合突破,無疑在國產(chǎn)算力領域樹立了一座新的里程碑。這一聯(lián)合團隊在MoE模型的大規(guī)??绻?jié)點專家并行集群推理方面取得了重大進展,為未來智能浪潮引領了新的方向。
首先,聯(lián)合團隊通過軟硬件的深度協(xié)同創(chuàng)新,挖掘了硬件的潛力。在算子融合方面,他們通過異構計算單元并行流水,將多個小算子融合重構為原子級計算單元,消除了小算子下發(fā)的開銷。這一創(chuàng)新性的舉措,使得在昇騰集群上的驗證和部署得以完成,并實現(xiàn)了性能的顯著提升。
在混合并行策略和通信計算并行優(yōu)化方面,團隊構建了TP(張量并行)+EP(專家并行)混合范式。他們創(chuàng)新地采用機內(nèi)TP并行,發(fā)揮機內(nèi)高速互聯(lián)優(yōu)勢,降低跨機通信損耗;同時,他們還創(chuàng)新MoE專家分層調(diào)度,64卡均衡分配專家計算節(jié)點,定制AllToAll通信協(xié)議,專家數(shù)據(jù)交換效率提升40%。這一創(chuàng)新性的分層優(yōu)化策略,進一步降低了跨機和機內(nèi)流量,提升了整體集群的吞吐能力。
此外,團隊還研發(fā)了路由專家負載均衡算法,實現(xiàn)了卡間負載差異小于10%,進一步提升了集群的整體性能。分布式架構的創(chuàng)新與算法協(xié)同優(yōu)化,使得他們在國產(chǎn)算力上實現(xiàn)了顯著的性能提升。單卡靜態(tài)內(nèi)存占用縮減至雙機部署的1/4,效率提升75%,專家計算密度增加4倍,推理吞吐提升3.2倍,端到端時延降低50%。這些顯著成果的實現(xiàn),無疑為國產(chǎn)算力的發(fā)展開辟了新的道路。
值得一提的是,科大訊飛深度推理大模型星火X1也完成了升級。在模型參數(shù)量比業(yè)界同行少一個數(shù)量級的情況下,星火X1的數(shù)學能力全面對標DeepSeek R1和OpenAI o1,在中文數(shù)學各項任務中“均實現(xiàn)領先”。這無疑證明了星火X1在深度推理模型方面的強大實力。
華為與科大訊飛的聯(lián)合突破,不僅在技術層面取得了重大進展,更是在未來智能浪潮中引領了新的方向。專家并行集群推理的應用前景廣闊,預期訓練時推理效率將提升200%?;谠摲桨傅耐评硪嬉矊崿F(xiàn)了DeepSeek V3和R1的高效推理,無疑將為人工智能的發(fā)展注入新的活力。
總的來說,華為與科大訊飛的聯(lián)合突破,打破了國產(chǎn)算力的瓶頸,引領了專家并行集群推理的新潮流。這一創(chuàng)新的解決方案也將應用于訊飛星火深度推理模型的訓練加速,無疑將為未來的智能浪潮注入新的動力。未來,我們有理由期待更多的科技創(chuàng)新和突破,推動人工智能的進一步發(fā)展。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )