開(kāi)疆作劍,開(kāi)荒為犁:2022春天,文心大模型走進(jìn)產(chǎn)業(yè)的百花深處

原標(biāo)題:開(kāi)疆作劍,開(kāi)荒為犁:2022春天,文心大模型走進(jìn)產(chǎn)業(yè)的百花深處

在聯(lián)合國(guó)總部的花園里,矗立著一尊青銅雕塑,名為“Let Us Beat Swords into Plowshares”,一個(gè)人手拿錘子,正在將劍改鑄為犁——“鑄劍為犁”,代表了近一個(gè)世紀(jì)以來(lái),人類社會(huì)對(duì)于文明與發(fā)展的共識(shí):將武器變?yōu)閯?chuàng)造的工具,以造福全人類。

而在人工智能領(lǐng)域,作為發(fā)展關(guān)鍵技術(shù)的預(yù)訓(xùn)練大模型,也同時(shí)具備了劍與犁的兩種屬性——

開(kāi)疆做劍:大模型在全球掀起了軍備競(jìng)賽,參數(shù)規(guī)模不斷升級(jí),文心等大模型的出現(xiàn),意味著中國(guó)將這一AI利器握在了手中,守住了智能科技的疆土;

開(kāi)荒做犁:借助大模型強(qiáng)大的通用能力和開(kāi)源開(kāi)放,千行百業(yè)和開(kāi)發(fā)者也因此受益,不必從零開(kāi)始,可以低門(mén)檻地“開(kāi)荒”引入AI,啟動(dòng)智能化轉(zhuǎn)型升級(jí)。

近幾年,面對(duì)全球經(jīng)濟(jì)和政治形勢(shì)的不確定性,人們從未如此迫切地渴望過(guò),將科技“鑄劍為犁”,大模型也應(yīng)當(dāng)從軍備競(jìng)賽變?yōu)楫a(chǎn)業(yè)發(fā)展的新動(dòng)能。

如何才能讓大模型“鑄劍為犁”、服務(wù)于民生百業(yè)?我回想起了一件往事。

2019年的時(shí)候,大模型還算是各大科技巨頭的“不傳之秘”,某實(shí)驗(yàn)室就因?yàn)椴辉敢忾_(kāi)放最新的大模型,被業(yè)界嘲諷是CloseAI(封閉AI)。而百度在當(dāng)年發(fā)布了中國(guó)首個(gè)正式開(kāi)放的預(yù)訓(xùn)練模型ERNIE 1.0(產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型文心的前身),卻沒(méi)有藏器待時(shí),而是直接開(kāi)啟了大模型落地應(yīng)用的探索,聚焦“產(chǎn)業(yè)智能化”。

這件事令我記憶猶新,可以說(shuō),以百度為代表的中國(guó)AI力量,在大模型趨勢(shì)初現(xiàn)之際,就選擇了“鑄劍為犁”、造福產(chǎn)業(yè)的發(fā)展方向。

那么,時(shí)間來(lái)到2022年春,大模型能夠?yàn)槠胀ㄈ撕颓邪贅I(yè)所用了嗎?

4月16日,在剛剛結(jié)束的2021百度認(rèn)知AI創(chuàng)意賽“AI創(chuàng)意派”決賽現(xiàn)場(chǎng),我得到了AI大模型一些最新動(dòng)向。簡(jiǎn)單來(lái)說(shuō):1.大模型加速落地應(yīng)用,展現(xiàn)出走進(jìn)產(chǎn)業(yè)深處的無(wú)限可能;2.文心大模型應(yīng)用門(mén)檻持續(xù)降低,公眾首次參賽,釋放出AI創(chuàng)意的無(wú)限遐想。

在這個(gè)乍暖還寒的春天,跟大家分享一下產(chǎn)業(yè)和個(gè)人,如何在當(dāng)下用AI大模型種植希望。

幾度春風(fēng):AI大模型走進(jìn)產(chǎn)業(yè)的百花深處

在你的印象中,都是哪些人在使用AI大模型?用GPT3訓(xùn)練出“碾壓人類”小作文的,是世界頂尖算法工程師;用AlphaFold預(yù)測(cè)蛋白質(zhì)的,是全球頂級(jí)AI實(shí)驗(yàn)室;還有炸裂眼球的AI for science大模型,是為預(yù)算幾乎無(wú)上限的科學(xué)任務(wù)所準(zhǔn)備的……這些AI大模型,千行百業(yè)的普通人不會(huì)用,也用不起。

難道,大模型注定與普通人無(wú)緣了?在2021百度認(rèn)知AI創(chuàng)意賽“AI創(chuàng)意派”上,百度文心大模型,為我們展現(xiàn)了另一種打開(kāi)方式。

正如百度集團(tuán)副總裁吳甜在比賽現(xiàn)場(chǎng)所說(shuō):“只有人工智能和大模型的門(mén)檻,低到了所有人都可方便地用起來(lái),才能真正大規(guī)模爆發(fā)出各種創(chuàng)意。本次創(chuàng)意賽中,選手展現(xiàn)了基于文心大模型的豐富創(chuàng)意,讓我們看到了大模型廣泛應(yīng)用的前景。”

這個(gè)“鑄劍為犁”的產(chǎn)業(yè)化過(guò)程,是怎么發(fā)生的?

第一步:技術(shù)的鍛造。

與實(shí)驗(yàn)室里的算力怪獸、規(guī)模巨獸不同,面向產(chǎn)業(yè)落地應(yīng)用的大模型,還有許多技術(shù)難題需要攻克,解決成本、效率、部署等問(wèn)題。為此,百度做了許多技術(shù)創(chuàng)新工作。

一方面,不斷提升參數(shù)規(guī)模和模型效果。2021年12月,ERNIE 3.0 升級(jí)為全球首個(gè)知識(shí)增強(qiáng)千億大模型,成為目前為止全球最大的中文單體模型,這也意味著通用能力更出色,泛化能力更強(qiáng),只需學(xué)習(xí)少量行業(yè)數(shù)據(jù),就能夠應(yīng)用于很多業(yè)務(wù)場(chǎng)景,降低企業(yè)的應(yīng)用門(mén)檻。

另一方面,為了保證超大規(guī)模模型的學(xué)習(xí)效果,百度產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)飛槳自主研發(fā)了端到端自適應(yīng)分布式訓(xùn)練框架與4D混合并行技術(shù),有效支持文心大模型高效穩(wěn)定的訓(xùn)練,讓產(chǎn)業(yè)用戶可以低成本地使用。

在技術(shù)的錘煉下,才能鍛造出一個(gè)產(chǎn)業(yè)可用、好用的大模型,真正支撐產(chǎn)業(yè)應(yīng)用。此次吳甜也提到,大模型未來(lái)的發(fā)展趨勢(shì)之一,將是技術(shù)的持續(xù)創(chuàng)新。

第二步:產(chǎn)業(yè)的熔爐。

目前,產(chǎn)業(yè)在落地應(yīng)用AI上遇到的普遍阻礙,就是行業(yè)know-how與AI模型的不相融,無(wú)法解決真實(shí)復(fù)雜的業(yè)務(wù)問(wèn)題。傳統(tǒng)深度學(xué)習(xí)是“蠻力計(jì)算”,無(wú)法理解數(shù)據(jù)深層的含義。

作為產(chǎn)業(yè)級(jí)大模型,文心與其他大模型的核心差異之一,就是為產(chǎn)業(yè)與AI的融合增加了一個(gè)關(guān)鍵的催化劑——“知識(shí)增強(qiáng)”,將大規(guī)模知識(shí)與深度學(xué)習(xí)相結(jié)合,讓AI能夠理解特定領(lǐng)域數(shù)據(jù)背后所隱含的知識(shí)關(guān)系,從而提升理解能力。

舉個(gè)例子,病歷質(zhì)量控制對(duì)于醫(yī)療行業(yè)非常重要,但掌握全科醫(yī)學(xué)知識(shí)的醫(yī)生很少,醫(yī)院病案科的醫(yī)生在進(jìn)行抽檢工作時(shí),病歷數(shù)量多,工作難度大,依靠有限的知識(shí)很難對(duì)所有病歷做出非常準(zhǔn)確的分析和判斷。如果AI算法不能理解醫(yī)學(xué)知識(shí),也無(wú)法很好地幫助病案科工作提質(zhì)增效。百度在文心大模型基礎(chǔ)上加入了藥典、醫(yī)學(xué)大百科等一系列知識(shí),再基于大模型訓(xùn)練出醫(yī)療相關(guān)的模型,達(dá)到醫(yī)學(xué)博士的水平,可以對(duì)每份病案進(jìn)行秒級(jí)別的智能掃描分析,從而有效提升了病案質(zhì)控的工作效率。

第三步:大生產(chǎn)的模具。

從農(nóng)業(yè)生產(chǎn)到工業(yè)制造,規(guī)?;笊a(chǎn)必不可少的就是標(biāo)準(zhǔn)化模具的出現(xiàn)。AI的規(guī)?;瘧?yīng)用,也離不開(kāi)一系列配套工具與平臺(tái)。

目前,文心大模型支持?jǐn)?shù)百家企業(yè)與機(jī)構(gòu),開(kāi)發(fā)者數(shù)量超過(guò)6萬(wàn),對(duì)外日調(diào)量已經(jīng)超過(guò)了五千萬(wàn)次。這是因?yàn)?,借助百度飛槳、百度大腦等平臺(tái)和工具,文心大模型的能力能夠被各行各業(yè)開(kāi)發(fā)者低門(mén)檻地應(yīng)用。

以飛槳企業(yè)版零門(mén)檻AI開(kāi)發(fā)平臺(tái)EasyDL為例,其就基于文心大模型推出了高精度NLP模型,最快15分鐘就可以完成垂直領(lǐng)域的模型訓(xùn)練。哪怕是沒(méi)有AI基礎(chǔ)的金融、法律等從業(yè)人士,也能通過(guò)EasyDL一站式自動(dòng)化訓(xùn)練,用少量數(shù)據(jù)構(gòu)建出自動(dòng)分析合同條款、自動(dòng)分析金融研報(bào)等定制模型。

這些配套工具與平臺(tái)的支撐,讓文心大模型能夠進(jìn)入規(guī)?;瘧?yīng)用階段。因此,吳甜也認(rèn)為2022年將是文心大模型產(chǎn)業(yè)落地的關(guān)鍵年。

從科學(xué)家和工程師手中的神兵利器,到普通人和千行百業(yè)的繩墨爐錘,文心大模型“鑄劍為犁”,與產(chǎn)業(yè)共同孕育出了百花齊放的智能之春。

低吟淺唱:放飛AI大模型的無(wú)盡想象

哥倫布發(fā)現(xiàn)美洲之后,辣椒進(jìn)入了人類的餐桌;萊特兄弟對(duì)天空的向往,拉開(kāi)了飛行的序幕;喬布斯天才般的創(chuàng)意,智能手機(jī)開(kāi)始主宰你我的生活……每一次技術(shù)浪潮,都少不了天才人物的神來(lái)之筆,用創(chuàng)意點(diǎn)燃了新技術(shù)的無(wú)限想象。

AI時(shí)代,大家都不希望中國(guó)只能跟在別人身后亦步亦趨,但是,創(chuàng)意從哪里來(lái)?

百度給出了一個(gè)答案:“創(chuàng)意在民間?!卑俣燃瘓F(tuán)副總裁吳甜在AI創(chuàng)意派的比賽現(xiàn)場(chǎng)這樣說(shuō)道。

民間,意味著要讓AI大模型為最廣泛的人才所用,無(wú)論技術(shù)水平高低都能參與其中。

此次比賽中,百度首次將AI大模型的使用門(mén)檻降到了大眾級(jí)別,吸引了全國(guó)各地近2000名不同年齡、不同技術(shù)基礎(chǔ)的選手?!皹?lè)植問(wèn)答”項(xiàng)目的開(kāi)發(fā)者林杰,就是一個(gè)農(nóng)業(yè)公司的產(chǎn)品負(fù)責(zé)人,沒(méi)有上手開(kāi)發(fā)過(guò)。這次基于飛槳EasyDL平臺(tái)使用ERNIE 3.0,林杰的開(kāi)發(fā)過(guò)程還挺順利,一步步訓(xùn)練出了能夠解答植物問(wèn)題的DEMO。最近打算自己種菜的朋友越來(lái)越多,說(shuō)不定未來(lái)林杰的產(chǎn)品真能拯救植物殺手們。

民間,意味著AI創(chuàng)新會(huì)貼近真實(shí)生活,大模型要能夠解決大量細(xì)節(jié)而具體的問(wèn)題。

本次創(chuàng)意賽的300多份創(chuàng)意方案中,有不少是大廠想不到,普通人卻特別期待的。比如哈工大大二學(xué)生煥宜就用六天時(shí)間,打造了一個(gè)“朋友圈古風(fēng)文案小能手”,只要有圖片,分分鐘讓你變身文案達(dá)人,在朋友圈裝一把文人墨客,吸引點(diǎn)贊無(wú)數(shù)。

民間,意味著未知的場(chǎng)景和挑戰(zhàn),大模型會(huì)遭遇各種意想不到的用途和場(chǎng)景,也能在實(shí)踐中得到檢驗(yàn)和提升。一個(gè)出乎意料的創(chuàng)意就是“反詐疫苗機(jī)器人”。

反詐App我下過(guò)、疫苗我打過(guò)、機(jī)器人我玩過(guò),但這個(gè)“反詐疫苗機(jī)器人”究竟是啥,還真是一頭霧水。原來(lái),開(kāi)發(fā)者郭成(化名)對(duì)自己奶奶的各種反詐騙經(jīng)歷印象深刻,就有了用NLP技術(shù)來(lái)幫助弱勢(shì)群體識(shí)別詐騙套路的想法。報(bào)名參賽后,郭成利用百度ERNIE 3.0大模型開(kāi)發(fā)了一個(gè)對(duì)話機(jī)器人,用戶跟它對(duì)話就能從實(shí)踐中汲取反詐經(jīng)驗(yàn),提高防騙能力,相當(dāng)于打了一針“思想疫苗”。要理解騙子們狡詐詭譎的語(yǔ)言套路,自然就需要機(jī)器人具備極高的語(yǔ)義理解、意圖識(shí)別等能力,而這正是ERNIE 3.0大模型的優(yōu)勢(shì)之一。

對(duì)于廣大圍觀群眾來(lái)說(shuō),一場(chǎng)比賽的創(chuàng)意可能無(wú)法全部落地變?yōu)楝F(xiàn)實(shí)。但每一個(gè)參賽者,一定能夠從項(xiàng)目實(shí)踐中,感受到大模型的真正實(shí)力。而AI大模型落地應(yīng)用的無(wú)限可能,就藏在這些關(guān)注的眼眸、放飛的腦洞之中。

一犁新雨破春耕:文心為智能時(shí)代寫(xiě)下風(fēng)物詩(shī)

如果說(shuō),文心大模型深入產(chǎn)業(yè),是從誕生之初就開(kāi)始的“潤(rùn)物細(xì)無(wú)聲”,那么剛剛結(jié)束的AI創(chuàng)意賽就像是一犁新雨破春耕,讓我們格外清晰地看到,大模型如何為AI規(guī)?;瘧?yīng)用插上騰飛的翅膀。

原因也很簡(jiǎn)單,大模型要服務(wù)于產(chǎn)業(yè),必須能夠解決那些具體的、細(xì)節(jié)的、工程化的問(wèn)題。AI科學(xué)家們討論的是模型收斂、魯棒性、認(rèn)知智能這類專業(yè)問(wèn)題,而當(dāng)大模型走進(jìn)千行百業(yè),遭遇的問(wèn)題則是如同參賽者們提出的一樣:如何找到合適的數(shù)據(jù)集?買(mǎi)不到GPU怎么訓(xùn)練?不會(huì)調(diào)參該如何操作?結(jié)果不符合預(yù)期怎么辦?

大模型要“鑄劍為犁”,就必須指導(dǎo)并幫助產(chǎn)業(yè)人士解決這些現(xiàn)實(shí)問(wèn)題。顯然,通過(guò)這次AI創(chuàng)意賽,對(duì)于上述問(wèn)題,百度已經(jīng)有了成功的探索和答案。當(dāng)然,這不僅僅是文心大模型的功勞,而是百度通過(guò)一整套體系,確保大模型能力被融合到產(chǎn)業(yè)智能化升級(jí)中。

最核心的,就是飛槳與大模型的融合。前面提到的飛槳開(kāi)發(fā)出4D混合并行策略、自適應(yīng)分布式訓(xùn)練等,有效地支持文心大模型高效穩(wěn)定訓(xùn)練,還有飛槳EasyDL等開(kāi)發(fā)平臺(tái)和工具,也早已開(kāi)源給社會(huì)各界使用。飛槳與大模型的強(qiáng)強(qiáng)聯(lián)手、融合發(fā)展,成為一個(gè)技術(shù)領(lǐng)先、自主創(chuàng)新、能力堅(jiān)實(shí)、產(chǎn)業(yè)可用的AI大底座,有力地支撐中國(guó)產(chǎn)業(yè)智能化轉(zhuǎn)型。

接下來(lái),是云與大模型的融合。產(chǎn)業(yè)智能化呼喚著更敏捷、簡(jiǎn)單、低成本的AI獲取方式,云服務(wù)成為各行各業(yè)引入AI大模型、基礎(chǔ)算法、AI算力等的必經(jīng)之路。在這樣的大背景下,百度很早就推動(dòng)了AI與云的深度融合,百度智能云作為百度AI技術(shù)的產(chǎn)業(yè)出口,正在將文心大模型推向越來(lái)越多的產(chǎn)業(yè)場(chǎng)景。

當(dāng)然,大模型的發(fā)展也離不開(kāi)與人才生態(tài)的融合。提到AI人才教育,似乎總是伴隨著嚴(yán)肅和焦慮,其實(shí)不然。中國(guó)人所向往的教育最高境界,是“暮春者,春服既成,冠者五六人,童子六七人,浴乎沂,風(fēng)乎舞雩,詠而歸”。而AI創(chuàng)意賽恰恰讓我有了這種感受,在文心大模型的臂膀托舉下,無(wú)數(shù)創(chuàng)意自由地、輕盈而舒展地飛揚(yáng)。當(dāng)普通人也能且歌且行,融入AI創(chuàng)意的洪流,我們還會(huì)擔(dān)心聽(tīng)不到AI創(chuàng)新的聲音嗎?

經(jīng)過(guò)三年耕耘,百度為AI大模型確立了從研致用的新范式,推動(dòng)大模型走向“鑄劍為犁”、服務(wù)產(chǎn)業(yè)的新階段。

隨著更多人與產(chǎn)業(yè)加入大模型的合唱,一首智能時(shí)代的風(fēng)物詩(shī),將飄揚(yáng)在華夏大地的每一個(gè)角落。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2022-04-17
開(kāi)疆作劍,開(kāi)荒為犁:2022春天,文心大模型走進(jìn)產(chǎn)業(yè)的百花深處
作為產(chǎn)業(yè)級(jí)大模型,文心與其他大模型的核心差異之一,就是為產(chǎn)業(yè)與AI的融合增加了一個(gè)關(guān)鍵的催化劑——“知識(shí)增強(qiáng)”,將大規(guī)模知識(shí)與深度學(xué)習(xí)相結(jié)合,讓AI能夠理解特定領(lǐng)域數(shù)據(jù)背后所隱含的知識(shí)關(guān)系,從而提升

長(zhǎng)按掃碼 閱讀全文