參天生長大模型:昇騰AI如何強壯模型開發(fā)與創(chuàng)新之根?

原標題:參天生長大模型:昇騰AI如何強壯模型開發(fā)與創(chuàng)新之根?

自2018年谷歌發(fā)布BERT以來,預訓練大模型經(jīng)過幾年的發(fā)展,以強大的算法效果,席卷了以NLP為代表的各大AI榜單與測試數(shù)據(jù)集。2020年OpenAI發(fā)布的NLP大模型GPT-3,實現(xiàn)了千億級參數(shù)。BERT、GPT的強大能力成為AI領(lǐng)域里程碑式的存在,大模型的顯著優(yōu)勢,也讓產(chǎn)業(yè)界巨頭與機構(gòu)紛紛參與其中。

大模型優(yōu)秀的泛化能力、通用AI的能力、高精度、覆蓋多業(yè)務場景等優(yōu)勢,降低了AI開發(fā)與應用的門檻,也讓“煉大模型”也成為AI產(chǎn)業(yè)的潮流。但有了算力、有了大模型,AI產(chǎn)業(yè)創(chuàng)新與落地應用就無憂無慮了嗎?答案并沒有這么簡單,很多產(chǎn)業(yè)需求是無法用通用模型來處理的,技術(shù)理論與應用場景之間仍然存在著代溝;一些超大規(guī)模模型在部署時也會面臨一系列問題,如算力、調(diào)參難度、硬件兼容性等。

如何讓大模型走出實驗室,走向產(chǎn)業(yè),推動行業(yè)的創(chuàng)新,成為橫亙在AI廠商面前的難題。那么,大模型該如何完成自身的進化,去適配使用場景、進一步推動AI產(chǎn)業(yè)的發(fā)展呢?在這方面,華為有一些方法與路徑值得借鑒與思考。

從刷分轉(zhuǎn)向全面可用

預訓練大模型是AI持續(xù)變革的動力與核心發(fā)展方向之一,隨著AI不斷深入產(chǎn)業(yè)與各學科領(lǐng)域的過程中,科研院所及各大企業(yè)間開始了大模型軍備battle,模型的類型朝著多樣化、參數(shù)規(guī)模朝著極致化的方向發(fā)展。

百家爭鳴中,我們看到模型參數(shù)規(guī)模越來越大,數(shù)據(jù)集紀錄不斷被刷新。但在真正的產(chǎn)業(yè)空間里,卻很難看到大模型規(guī)?;膽谩F茨P蛥?shù),拼下游任務打榜成績,是廠商推出大模型后標榜實力的慣常操作。然而到拼落地應用的時候,許多廠商的大模型卻緘默了。

從高分到高能,大模型距離現(xiàn)實中的產(chǎn)業(yè)場景還有不短的路程要走。讓大模型從“刷分”走向千行百業(yè),需要一場全面的轉(zhuǎn)型。

為了更好地推動大模型的發(fā)展,華為推出了人工智能大模型全流程使能體系,該體系包含從大模型規(guī)劃、開發(fā)到產(chǎn)業(yè)化全流程,加速大模型產(chǎn)業(yè)化進程。

在產(chǎn)業(yè)界基于昇騰AI先后推出鵬程.盤古、鵬程.神農(nóng)、紫東.太初、武漢.LuoJia、華為云盤古系列等有影響力的大模型后,為進一步鼓勵大模型的研究與創(chuàng)新,華為推出了昇騰科研創(chuàng)新使能計劃,通過資金、算力、技術(shù)和社區(qū)的扶持,鼓勵高校及科研院所基于昇騰大模型沙盤,開展大模型的研究和創(chuàng)新,在前沿領(lǐng)域和熱點行業(yè)打造出世界級領(lǐng)先的大模型。

為了讓大模型易開發(fā)、易適配、易部署,針對基礎模型開發(fā),華為推出基于昇思MindSpore的大模型開發(fā)套件,通過算法開發(fā)、并行計算、存儲優(yōu)化、斷點續(xù)訓等技術(shù),實現(xiàn)大模型的高效開發(fā)與部署。

從科研創(chuàng)新到行業(yè)落地,華為與產(chǎn)業(yè)伙伴一起成立了智能遙感開源生態(tài)聯(lián)盟和多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟等,目前已經(jīng)有70余家合作伙伴陸續(xù)孵化出多個行業(yè)解決方案,未來華為還會聯(lián)合伙伴成立AI流體力學、AI生物醫(yī)藥及智慧生物育種等產(chǎn)業(yè)聯(lián)盟,助力相關(guān)領(lǐng)域的大模型創(chuàng)新和產(chǎn)業(yè)化發(fā)展。

大模型全流程使能體系不僅為大模型的研發(fā)與創(chuàng)新帶來生長的土壤,也促進著生態(tài)伙伴基于已有大模型孵化更多行業(yè)應用,同時,大模型也會得到行業(yè)更豐富的數(shù)據(jù)和更泛化應用場景的反哺。在良性循環(huán)的過程中,大模型從而生長得更加茁壯,能夠真正枝繁葉茂地賦能產(chǎn)業(yè)。

從宏觀的使能體系中,我們能夠感知到大模型賦能千行百業(yè)的實力與價值;在微觀個體中,透過大模型的代表紫東.太初,我們也能夠看到其帶來的產(chǎn)業(yè)之變。

紫東.太初的開發(fā)之根

現(xiàn)階段,產(chǎn)學研界的大模型主要集中在NLP和CV領(lǐng)域。行業(yè)內(nèi)傳統(tǒng)的以文本、圖像為主的單模態(tài)或雙模態(tài)預訓練模型,覆蓋的范圍與滿足的需求有限,不能充分發(fā)揮數(shù)據(jù)生產(chǎn)力,限制了下一階段AI 的應用創(chuàng)新。多模態(tài)大模型應運而生,打通圖像、文本、語音等不同模態(tài)數(shù)據(jù)的協(xié)同轉(zhuǎn)化,進而使AI應用更貼合人類行為習慣與現(xiàn)實需求,成為當前人工智能行業(yè)攻堅點之一。

紫東.太初是全球首個三模態(tài)千億參數(shù)大模型,作為多模態(tài)模型的代表,正在全力助推AI研發(fā)規(guī)則和產(chǎn)業(yè)應用模式變革,加速各行業(yè)智能化轉(zhuǎn)型實踐。在7月29日-31日的首屆中國算力大會上,“紫東.太初”大模型榮獲“DC Tech創(chuàng)新先鋒”優(yōu)秀成果獎。

創(chuàng)新先鋒優(yōu)秀成果獎評選大模型的維度嚴謹并全面,無論是技術(shù)、系統(tǒng),還是應用賦能等方面,都是重點考量的因素。紫東.太初大模型被業(yè)界認可,成為標桿引領(lǐng)多模態(tài)大模型,能夠保持優(yōu)秀并持續(xù)創(chuàng)新的前提,源于其強壯的AI根技術(shù),在AI框架、AI算力等層面滿足大模型的“創(chuàng)新”需求。

紫東.太初是中科院自動化所以昇騰AI基礎軟硬件為基礎,基于全場景AI框架昇思MindSpore打造的三模態(tài)模型,紫東.太初兼具跨模態(tài)理解和生成能力,與單模態(tài)和圖文兩模態(tài)相比,其采用一個大模型就可以靈活支撐圖-文-音全場景AI應用,具有在無監(jiān)督情況下多任務聯(lián)合學習、并快速遷移到不同領(lǐng)域數(shù)據(jù)的強大能力。

紫東.太初目前已經(jīng)具備領(lǐng)先的圖文音跨模態(tài)理解與生成能力,可輕松完成智能問答、圖片生成、視頻理解與等任務,這些能力將在工業(yè)質(zhì)檢、影視創(chuàng)作、互聯(lián)網(wǎng)推薦、智能駕駛等領(lǐng)域廣泛應用。例如在紡織工業(yè)生產(chǎn)線中的應用案例中,紫東.太初融合多模態(tài)信息,可以通過聲音識別來判斷紡織機運轉(zhuǎn)過程中斷經(jīng)和斷緯的情形,同時通過視覺識別來判斷布匹的缺陷,展示出綜合研判的能力和廣闊的應用前景。

由于三模態(tài)大模型非常接近人類的信息處理方式,其對信息數(shù)據(jù)有非常好的協(xié)同掌握能力,因此可以非常廣泛地應用于產(chǎn)學各領(lǐng)域,孵化出更多新應用。新華社技術(shù)局、長安汽車、中國移動、千博手語等企業(yè)通過加盟多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟,將開源的多模態(tài)大模型與自身業(yè)務融合創(chuàng)新,基于紫東.太初陸續(xù)孵化出新媒體內(nèi)容檢索平臺、智能座艙、南宋御街數(shù)字人、手語教考一體機等場景化行業(yè)應用,充分展現(xiàn)了大模型的潛力與產(chǎn)業(yè)價值。

從大模型技術(shù)深處挖掘,我們會發(fā)現(xiàn)紫東.太初的打造,得益于昇騰AI的產(chǎn)業(yè)底座,尤其是昇思對大模型的原生支持,讓大模型具備了快速開發(fā)、極簡訓練的“開發(fā)之根”。

澆灌創(chuàng)新之花

從昇思AI框架中汲取“創(chuàng)新”的營養(yǎng)澆灌大模型,是使能其發(fā)展的關(guān)鍵。昇思 MindSpore 在進行架構(gòu)設計時就考慮了大模型開發(fā)時遇到的內(nèi)存占用、通信瓶頸、調(diào)試復雜、部署難等問題,針對性進行技術(shù)研究與創(chuàng)新。

在大模型支持方面,昇思實現(xiàn)了原生支持大模型,能夠在業(yè)界率先支持全自動并行計算。在大模型訓練中,可以同時使用數(shù)據(jù)并行、算子級模型并行、Pipeline 模型并行、優(yōu)化器模型并行、異構(gòu)并行、重計算、高效內(nèi)存復用多維度、全種類的分布式并行策略;原創(chuàng)集群拓撲感知的多維度自動混合并行,實現(xiàn)超大模型自動切分、并行計算,顯著提升集群加速能力;新的 DNN分布式并行編程范式,可以實現(xiàn)低代碼算法切換,大幅節(jié)省開發(fā)時間。

在科研創(chuàng)新和應用領(lǐng)域,昇思面向 8 大科學計算場景推出 MindSpore Science 系列套件,其包含業(yè)界領(lǐng)先的數(shù)據(jù)集、基礎模型、預置高精度模型和前后處理工具,可以加速科學行業(yè)應用開發(fā)。

面向產(chǎn)業(yè)生態(tài)的開放,昇思正在與產(chǎn)學研各界一同推進開源開放,昇思 MindSpore AI 框架已經(jīng)成為大模型開發(fā)的技術(shù)支撐,開源開放更使得產(chǎn)學界可以基于它研發(fā)自己的大模型。昇騰社區(qū)和昇思MindSpore社區(qū)一直在加強對大模型開源開放的支持。截至7月,昇思社區(qū)下載量已經(jīng)突破200萬,社區(qū)貢獻者超過5900人。

目前,華為聯(lián)合科研機構(gòu)和產(chǎn)業(yè)界,基于昇思 MindSpore AI 框架與昇騰 AI 強大算力,不斷發(fā)展基礎大模型和行業(yè)大模型的產(chǎn)業(yè)生態(tài),賦能千行百業(yè)數(shù)字化、智能化。

例如,鵬城實驗室基于昇思 MindSpore 先后推出了業(yè)界首個 2000 億參數(shù)中文預訓練語言模型鵬程.盤古和面向生物醫(yī)學領(lǐng)域的鵬程.神農(nóng)大模型,深度賦能文本生成領(lǐng)域與生物制藥;武漢大學在嵌入昇思MindSpore先進技術(shù)特性后打造了全球首個遙感影像智能解譯專用框架武漢.LuoJiaNet和業(yè)界最大遙感樣本庫武漢.LuoJiaSET,為遙感應用開發(fā)提供便利。

從根技術(shù)創(chuàng)新提升大模型的性能,到賦能不同科學計算行業(yè)應用的加速開發(fā),大模型全流程使能體系的構(gòu)建,產(chǎn)業(yè)生態(tài)的開源開放與架橋連接,基于昇騰AI軟硬協(xié)同的技術(shù)創(chuàng)新與產(chǎn)業(yè)服務助力,大模型的創(chuàng)新與產(chǎn)業(yè)落地之路越來越寬敞,加速各行業(yè)智能化轉(zhuǎn)型實踐,未來會有更多不同領(lǐng)域的原創(chuàng)技術(shù)成果誕生。

華為為大模型確立了從研致用的范式,推動大模型走向服務產(chǎn)業(yè)的新階段,不同的行業(yè)在各類應用場景中驗證著大模型的能力。遍地花開的成果,離不開昇騰 AI 提供的強大算力底座與昇思 MindSpore AI 框架的賦能,澆灌著大模型的研發(fā)與創(chuàng)新,為其注入活力與生命力,大模型的產(chǎn)業(yè)之花得以在數(shù)智時代的原野中爭奇斗艷,盎然生機,一幅智慧生活的圖景正在徐徐展開。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-08-10
參天生長大模型:昇騰AI如何強壯模型開發(fā)與創(chuàng)新之根?
紫東.太初是中科院自動化所以昇騰AI基礎軟硬件為基礎,基于全場景AI框架昇思MindSpore打造的三模態(tài)模型,紫東.太初兼具跨模態(tài)理解和生成能力,與單模態(tài)和圖文兩模態(tài)相比,其采用一個大模型就可以靈

長按掃碼 閱讀全文