11月17日消息,百川智能與鵬城實驗室宣布攜手探索大模型訓練和應用,合作研發(fā)基于國產(chǎn)算力的128K長窗口大模型“鵬城-百川?腦海33B”。這是國產(chǎn)算力大模型創(chuàng)新與落地的一次實踐,對國產(chǎn)算力大模型發(fā)展具有積極示范作用。
百川智能攜手鵬城實驗室助力國產(chǎn)算力大模型創(chuàng)新
眾所周知,訓練大模型需要海量的算力,并且大模型參數(shù)數(shù)量的增長與算力的平方成正比。大模型性能的競爭,一定程度上是算力的比拼。在復雜多變的國際環(huán)境下,國內(nèi)算力供給與需求之間的“鴻溝”持續(xù)擴大,國產(chǎn)化算力已經(jīng)成為國內(nèi)大模型企業(yè)的必要選擇。
雖然國內(nèi)諸多企業(yè)在通用AI芯片方面早有布局,在芯片量產(chǎn)、生態(tài)構建、應用拓展領域也取得了不錯進展,但基于國產(chǎn)算力訓練大模型,仍面臨著生態(tài)建設、成本控制、能效比優(yōu)化等阻礙。因此算力完全自主,仍需要芯片廠商、大模型企業(yè)、學術科研機構等多方共同努力。
鵬城實驗室表示,鵬城實驗室秉持“國產(chǎn)算力+自主大模型”的創(chuàng)新理念,依托“鵬城?腦?!遍_源聯(lián)合體,廣泛聯(lián)合企業(yè)、高校和科研院所,致力于通過開源群智的合作模式共享資源,為千行百業(yè)插上人工智能的“翅膀”。百川智能是國內(nèi)領先的大模型企業(yè),自成立以來一直在推動大模型研發(fā)和開源生態(tài)建設,其開源和閉源模型在同等量級權威評測中都取得了優(yōu)異成績。雙方在合作過程中能夠充分發(fā)揮各自優(yōu)勢形成合力,更好地滿足我國不斷增長的智能化轉(zhuǎn)型需求,助力中國人工智能產(chǎn)業(yè)快速崛起。
百川智能表示,百川智能希望通過開源、與合作伙伴共創(chuàng)等方式助力中國大模型創(chuàng)新,繁榮本土大模型生態(tài)。鵬城實驗室作為國家戰(zhàn)略科技力量的重要組成部分,在國產(chǎn)算力大模型研發(fā)和應用等方面一直處于國內(nèi)領先位置。本次百川智能與鵬城實驗室合作研發(fā)“鵬城-百川?腦海33B”長窗口大模型,是國產(chǎn)算力大模型技術創(chuàng)新和落地的一次突破。未來,百川智能將在技術、算力等諸多維度不斷深化與鵬城實驗室的合作,持續(xù)助力本土大模型創(chuàng)新發(fā)展。
國產(chǎn)算力最長上下文窗口,“鵬城-百川?腦海33B”率先實現(xiàn)國產(chǎn)算力技術突破
論壇上,百川智能和鵬城實驗室展示了雙方共同研發(fā)的“鵬城-百川?腦海33B”大模型。“鵬城-百川?腦海33B”的128K長上下文窗口基于“鵬城云腦”國產(chǎn)算力平臺訓練,未來可升級至192K,是基于國產(chǎn)算力訓練的最長上下文窗口。
上下文窗口長度對模型理解和生成與特定上下文相關的文本至關重要,是大模型的核心技術之一。通常而言,更長的上下文窗口可以提供更豐富的語義信息、消除歧義,能夠讓模型生成的內(nèi)容更準確、更流暢。
為了更好地提升“鵬城-百川?腦海33B”上下文窗口長度和模型整體性能,百川智能和鵬城實驗室對模型進行了全流程優(yōu)化。在數(shù)據(jù)集構建方面,采用精細的數(shù)據(jù)構造,實現(xiàn)了段落、句子粒度的自動化數(shù)據(jù)過濾、選擇、配比,良好的提升了數(shù)據(jù)質(zhì)量;在訓練架構上,通過NormHead、max-Z-Loss、dynamic-LR等自研或業(yè)界領先的模型訓練優(yōu)化技術,對Transformer模塊進行深度優(yōu)化,確保模型收斂穩(wěn)定的同時,全面提升了模型優(yōu)化效率和最終效果;此外,還在全生命周期的模型工具集中,通過與北京大學王亦洲、楊耀東老師團隊的合作,首創(chuàng)了帶安全約束的RLHF對齊技術,有效提升了模型內(nèi)容生成質(zhì)量和安全性。
未來,雙方將在國產(chǎn)算力大模型技術創(chuàng)新和模型落地等方面繼續(xù)加強合作,并與相關領域的優(yōu)勢單位如北京大學、清華大學等開展協(xié)同創(chuàng)新,助力本土大模型在模型性能、技術創(chuàng)新方面持續(xù)突破,推動本土大模型進一步開源開放,為更多行業(yè)智能化轉(zhuǎn)型提供幫助和支持。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )