摘取AI的皇冠明珠NLP后,百度將它鑲嵌進(jìn)了產(chǎn)業(yè)之中

文 | 曾響鈴

來源 | 科技向令說

當(dāng)AI發(fā)展借新基建東風(fēng)進(jìn)一步加速后,每個(gè)垂直門類都開始表現(xiàn)出一邊深化技術(shù)、一邊廣拓生態(tài)的兩大特征。

最近的百度大腦語言與知識技術(shù)峰會直接表現(xiàn)了這一點(diǎn)。

一次性推出11項(xiàng)發(fā)布,AI技術(shù)的大規(guī)模應(yīng)用進(jìn)程被行業(yè)巨頭加快,而正如百度CTO王海峰所言,“在百度語言與知識技術(shù)的布局和發(fā)展中,我們始終在注意把握兩個(gè)趨勢,即技術(shù)發(fā)展趨勢和產(chǎn)業(yè)發(fā)展趨勢,并力爭引領(lǐng)趨勢?!?作為AI皇冠上的明珠,NLP在一邊繼續(xù)進(jìn)行技術(shù)深化的同時(shí),產(chǎn)業(yè)落地也開始齊頭并進(jìn)。

如果從2010年百度成立自然語言處理部算起,NLP從技術(shù)和產(chǎn)業(yè)上全面布局已經(jīng)走過整整十個(gè)年頭。

作為AI領(lǐng)域發(fā)展時(shí)間最久、積累最豐厚的垂直領(lǐng)域,NLP正在嘗試塑造出一個(gè)產(chǎn)業(yè)智能化從技術(shù)到應(yīng)用的完整范式,對百度而言,這張AI王牌中的王牌也是時(shí)候打出手了。

一、密集發(fā)布技術(shù)成果后,NLP巨頭的產(chǎn)業(yè)落地呈現(xiàn)三大特征

巨頭的密集動作,直接表現(xiàn)出NLP這個(gè)AI排頭兵在產(chǎn)業(yè)落地上的三大特征。

1、技術(shù)“稱王”后,領(lǐng)頭羊正在擔(dān)起行業(yè)責(zé)任

過去十年,百度大腦在NLP領(lǐng)域積累了大量的技術(shù)成果,例如包括國家科技進(jìn)步獎在內(nèi)的20多個(gè)獎項(xiàng),30多項(xiàng)國際競賽冠軍,發(fā)表學(xué)術(shù)論文超過300篇,申請專利2000多項(xiàng)。

長期的數(shù)據(jù)和技術(shù)沉淀讓百度NLP在國內(nèi)處在了領(lǐng)先的位置,成為中國NLP發(fā)展的一面旗幟。而這種沉淀即便放到國際視野下,仍然可以支撐百度進(jìn)入NLP頭部梯隊(duì),代表中國AI在關(guān)鍵的語言和知識垂直領(lǐng)域占據(jù)重要的席位,獲得行業(yè)話語權(quán)。

根據(jù)公開資料整理

在以絕對的技術(shù)“稱王”后,百度同時(shí)承擔(dān)起推動技術(shù)產(chǎn)業(yè)化落地的責(zé)任。這次推出的中文自然語言處理數(shù)據(jù)共建計(jì)劃『千言』和語言與知識技術(shù)算力共享計(jì)劃,是領(lǐng)頭羊承擔(dān)行業(yè)責(zé)任、推動包括友商在內(nèi)的行業(yè)共同進(jìn)步的體現(xiàn),已經(jīng)脫離競爭范疇。

以算力共享計(jì)劃為例,百度準(zhǔn)備在該計(jì)劃中,面向廣大開發(fā)者和研究人員開放共享百度的算力,初步投入約1億元的資源,邀請不僅限于百度語言與知識開源開放技術(shù)用戶還包括更多的中文語言與知識技術(shù)開發(fā)者、研究人員免費(fèi)使用這些算力。

千言數(shù)據(jù)共建計(jì)劃也有類似的資源共享屬性,在這兩大計(jì)劃加持下,百度NLP將以整個(gè)行業(yè)的姿態(tài)共同解決發(fā)展中的技術(shù)挑戰(zhàn)。

2、矩陣式產(chǎn)品推進(jìn),已成為NLP產(chǎn)業(yè)落地的“新常態(tài)”

細(xì)數(shù)此次百度大腦新發(fā)布或升級的幾個(gè)主要產(chǎn)品,包括:

文心ERNIE語義理解技術(shù)與平臺,面向開發(fā)者提供各種NLP開發(fā)資源和能力;

TextMind智能文檔分析平臺,面向企業(yè)文檔的規(guī)范化;

智能創(chuàng)作平臺,面向創(chuàng)作者提供的一個(gè)高集成度的內(nèi)容創(chuàng)作平臺,功能方面進(jìn)行了升級;

UNIT智能對話與定制服務(wù)平臺,各大廠AI都在搞的服務(wù),百度做得最早,現(xiàn)在重新整合進(jìn)行了一次升級;

AI同傳會議解決方案,利用前沿NLP技術(shù)構(gòu)建的企業(yè)翻譯解決方案。

一股腦推出這些產(chǎn)品,表明NLP巨頭在產(chǎn)業(yè)落地時(shí)典型的矩陣化特征。這其中既有百度原本就占據(jù)優(yōu)勢的業(yè)務(wù)(例如UNIT、智能創(chuàng)作平臺)的再升級,也有根據(jù)市場需要新開發(fā)的能力,例如文心ERNIE、TextMind;

換一個(gè)角度看,這個(gè)矩陣也顯示出百度NLP既能實(shí)現(xiàn)最底層的賦能,也能走向臺前完成一線解決方案的塑造。

以AI同傳會議解決方案為例,隨著技術(shù)不斷突破,結(jié)合產(chǎn)品設(shè)計(jì),同傳這個(gè)被認(rèn)為是難度頗高的NLP領(lǐng)域已經(jīng)可以實(shí)用。百度新發(fā)布AI同傳會議解決方案,讓企業(yè)可以在只用一臺電腦,一部手機(jī)的情況下就能快速搭建一套同傳服務(wù),參會人員可以選擇屬于自己的語種,同傳服務(wù)成為語言轉(zhuǎn)換的高效率“樞紐”。

回過頭來看,也只有NLP方面有深度積累的巨頭才能完成這樣的產(chǎn)業(yè)落地矩陣構(gòu)建。

3、“降落傘”規(guī)則,支撐AI技術(shù)落地走得更穩(wěn)

合格率99.9%的降落傘會導(dǎo)致每千名士兵有一人因?yàn)楫a(chǎn)品不合格而失去生命,當(dāng)軍方要求生產(chǎn)廠家負(fù)責(zé)人自己親身檢測產(chǎn)品后,“難以突破的”合格率馬上被提到了100%。

這個(gè)二戰(zhàn)典故帶來的“降落傘”規(guī)則在很多當(dāng)代產(chǎn)業(yè)合作中被實(shí)踐,百度NLP也是如此,很多產(chǎn)品或解決方案都有應(yīng)用在百度龐大的互聯(lián)網(wǎng)、科技生態(tài)中的“經(jīng)歷”。

例如,在百度移動生態(tài)的內(nèi)容推薦及內(nèi)容審核中,已經(jīng)廣泛存在NLP的身影,即便到了視聽內(nèi)容時(shí)代,百度在視頻推薦方面超越行業(yè)的內(nèi)容理解能力,同樣有NLP的功勞。

而不止于移動生態(tài),百度多樣化業(yè)務(wù)布局中也存在NLP的印記,例如領(lǐng)先行業(yè)的金融信貸風(fēng)控能力,或者百度最近大力推進(jìn)的智慧醫(yī)療,其中涉及語義和知識也需要NLP加持。

二、破解“既要-又要”難題,語言與知識領(lǐng)域的AI已經(jīng)完成三大挑戰(zhàn)

NLP產(chǎn)業(yè)應(yīng)用往往面臨“既要-又要”的表面矛盾,而所謂的產(chǎn)業(yè)落地,某種程度上就是破解這些“無法兼得”矛盾的過程。

這從百度NLP的產(chǎn)品或解決方案中可見一斑。

1、既要通用性的便利,又要定制化的深度

一方面,由于通用性,產(chǎn)業(yè)開發(fā)者可以基于共有的方案快速實(shí)現(xiàn)產(chǎn)品或解決方案的部署及上線;另一方面,隨著產(chǎn)業(yè)智能化走向深度,不同產(chǎn)業(yè)客戶往往都開始追求屬于自己獨(dú)特的定制化能力。

這種通用性和定制化的矛盾,隨著產(chǎn)業(yè)對AI追求深化將越來越明顯。

可以看到,百度NLP此次的動作,越來越貼合“魚和熊掌兼得”的現(xiàn)實(shí)需要。以語義理解技術(shù)與平臺文心ERNIE為例,一站式能力即能夠?qū)崿F(xiàn)解決方案的快速部署適配,也能夠滿足開發(fā)者的個(gè)性化需求。

這是因?yàn)?深度學(xué)習(xí)平臺飛槳上打造的文心,除了享受到飛槳賦予的能力,還依托于百度領(lǐng)先的NLP技術(shù),集成了預(yù)訓(xùn)練模型、算法集、開發(fā)套件、平臺化服務(wù),這些使得開發(fā)者既能夠更簡單地制作自己的NLP模型,也能夠便捷地融入企業(yè)的特殊需要。

通俗地說,這是一片已經(jīng)耕好的黑土地,只要撒入不同作物的種子,就能快速長出自己想要的莊稼。

2、既要成本低,又要效率高,還要“體驗(yàn)”好

NLP產(chǎn)業(yè)落地還有牽扯要素更多的“我全都要”現(xiàn)象——在應(yīng)用開發(fā)過程中,因?yàn)榻当驹鲂У闹餍?希望成本能夠更低、效率可以更高,而開發(fā)者在龐雜的開發(fā)工作面前又往往還希望體驗(yàn)?zāi)軌蚋谩?/p>

如果在過去,這種需求大概會被技術(shù)服務(wù)方懟回來,但隨著平臺化能力的提升,NLP已經(jīng)完全具備了滿足這種矛盾需求的能力。

仍然以文心為例,它全面降低了NLP的定制開發(fā)成本,在強(qiáng)大語義理解能力下對數(shù)據(jù)標(biāo)注廣度和深度要求降低——90%準(zhǔn)確度的模型,過去需要5100條數(shù)據(jù),現(xiàn)在可能只要220條數(shù)據(jù);在算力上也類似,由于集成了ERNIE預(yù)訓(xùn)練模型,企業(yè)只需要單機(jī)微調(diào)即可取得世界領(lǐng)先效果的NLP模型,極大降低算力成本。

可以看出,這種成本的降低伴隨著效率的提升,二者是一體兩面的關(guān)系。而更進(jìn)一步看,對實(shí)際參與開發(fā)工作的開發(fā)者而言,僅需要配置或編寫少量代碼便可完成從模型訓(xùn)練到模型評估,1周的工作1天完成,這本身也是一種體驗(yàn)上的優(yōu)化。

類似的還有UNIT智能對話與定制服務(wù)平臺,在本次升級后數(shù)據(jù)標(biāo)注成本的進(jìn)一步降低30%以上。重點(diǎn)場景預(yù)置的場景化解決方案,能夠幫助開發(fā)者以更低的成本、更高的效率完成智能對話系統(tǒng)的構(gòu)建,而這種構(gòu)建也不需要長篇大論、邏輯復(fù)雜的編程,只需要調(diào)用對應(yīng)的模塊即可。

3、既要單環(huán)節(jié)強(qiáng)化,也要全鏈條深入

“既全且深”在過去是NLP開發(fā)者對平臺服務(wù)的美好理想,既能夠提供全面的服務(wù),每個(gè)細(xì)分服務(wù)還能夠做到足夠得深。

現(xiàn)在,這種理想已經(jīng)變成現(xiàn)實(shí),它同樣得益于技術(shù)和服務(wù)的長期積累。

以百度NLP智能創(chuàng)作平臺為例,該平臺一年多以來的自動創(chuàng)作文章累計(jì)200萬+,相當(dāng)一個(gè)10人團(tuán)隊(duì)至少工作45年;“圖文轉(zhuǎn)視頻能力”上線4個(gè)月,被7000多家客戶使用,自動創(chuàng)作短視頻15萬,相當(dāng)于一個(gè)人至少要工作100年。

在此基礎(chǔ)上,智能創(chuàng)作平臺進(jìn)行了再升級,一次性推出囊括智能策劃、智能采編和智能審校全鏈條的3大場景方案,而每個(gè)環(huán)節(jié),都十分深度而不只是簡單的布局。

例如,在智能采編環(huán)節(jié),借助融合文本、視覺、語音的跨模態(tài)AI技術(shù),一方面提供文章創(chuàng)作多樣、易用的工具,另一方面,還整合了視頻編輯、圖文與視頻互相轉(zhuǎn)換等視頻生產(chǎn)實(shí)用能力,實(shí)際應(yīng)用可以幫助視頻生產(chǎn)速度達(dá)到原有的6倍。

可以認(rèn)為,在百度等巨頭的積極探索下,過去NLP領(lǐng)域那些不可能、充滿矛盾的產(chǎn)業(yè)應(yīng)用需求,最終將變得稀松平常。

三、讓AI強(qiáng)者恒強(qiáng)的“自增強(qiáng)循環(huán)”,這次AI巨頭又有了新的玩法

在AI發(fā)展領(lǐng)域有典型的來自實(shí)踐的“自增強(qiáng)循環(huán)”現(xiàn)象,即在深度積累下不斷在自身業(yè)務(wù)、產(chǎn)業(yè)領(lǐng)域進(jìn)行實(shí)踐,將成果反饋,推動算法、數(shù)據(jù)等不斷進(jìn)步,自我強(qiáng)化,對行業(yè)的領(lǐng)先像滾雪球一樣越滾越大。

例如,百度NLP領(lǐng)先行業(yè)的UNIT,自發(fā)布以來,2.7萬多開發(fā)者在平臺累積知識條目總量2.4億,支撐了超過10萬個(gè)智能對話應(yīng)用,與最終用戶總計(jì)進(jìn)行了超過4200億次交互。

這些實(shí)踐的強(qiáng)化,反過來讓UNIT能力更上一層樓,推出更多更低成本、更高效率、更好開發(fā)體驗(yàn)的服務(wù),這種正向循環(huán)讓UNIT超越競品越來越多。

所謂的“強(qiáng)者恒強(qiáng)”,其實(shí)根本上就是來自于這種“自增強(qiáng)循環(huán)”。

現(xiàn)在,百度在NLP領(lǐng)域推進(jìn)這種“自增強(qiáng)循環(huán)”又多了一種玩法。如果說過去的“自增強(qiáng)”過程是在自己的地盤中實(shí)踐推進(jìn),那么百度此次推出的行業(yè)計(jì)劃,則帶有聯(lián)合整個(gè)行業(yè)共同完成“自增強(qiáng)循環(huán)”的意味。

此次百度NLP推出的千言開源數(shù)據(jù)計(jì)劃十分典型。

在百度的構(gòu)想中,它試圖“團(tuán)結(jié)”來自國內(nèi)多家高校和企業(yè)的數(shù)據(jù)資源研發(fā)者,共同建設(shè)這樣一個(gè)數(shù)據(jù)項(xiàng)目,在更多的“同行”加入下,獲得更豐富的任務(wù)類型、更多的開源數(shù)據(jù)集合。

這樣做的好處,是讓計(jì)劃中的每一個(gè)參與者都能享受到整個(gè)行業(yè)的數(shù)據(jù)和模型積累,從復(fù)雜知識構(gòu)建、語義理解、知識融合、多模態(tài)融合等角度推動技術(shù)的進(jìn)步,畢竟,百度NLP積累再多,也少于整個(gè)行業(yè),而NLP又是一個(gè)極度依賴積累的AI垂直領(lǐng)域。

千言第一期總共涵蓋了7大任務(wù),20多個(gè)中文開源數(shù)據(jù)集合,這會是百度另一種“自增強(qiáng)循環(huán)”的開啟,只不過,它依靠的是整個(gè)行業(yè)橫向而不是自身實(shí)踐縱向的推進(jìn)力量,也將惠及整個(gè)行業(yè)。

通過行業(yè)共建的方式汲取精華獲得群策群力的成長,這是百度AI、NLP更大的手筆。

以這樣的視角再來看百度在此次峰會上推出以王海峰為代表的百度NLP“十年十人”,可以認(rèn)為,百度NLP在十年發(fā)展后,已經(jīng)不單被定義為一種屬于企業(yè)個(gè)體的優(yōu)勢技術(shù),更成為百度推動機(jī)器更好地理解世界、服務(wù)于人這種技術(shù)信仰的典型代表,實(shí)現(xiàn)著更高維度的技術(shù)情懷。

總而言之,已經(jīng)完成“技術(shù)扛鼎”的百度NLP,重心已經(jīng)轉(zhuǎn)移到了產(chǎn)業(yè)落地上。作為走在NLP應(yīng)用于產(chǎn)業(yè)智能化最前線的巨頭,百度走出了有自身調(diào)性的路子,也通過滿足產(chǎn)業(yè)更復(fù)雜深度的方式來獲得更廣泛的認(rèn)可,以及相對競爭對手的優(yōu)勢。與此同時(shí),從競爭到競合的行業(yè)態(tài)勢,也通過百度的引導(dǎo)開始發(fā)生在NLP領(lǐng)域。

*此內(nèi)容為【科技向令說】原創(chuàng),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

【完】

曾響鈴

1鈦媒體、品途、人人都是產(chǎn)品經(jīng)理等多家創(chuàng)投、科技網(wǎng)站年度十大作者;

2虎嘯獎評委;

3作家:【移動互聯(lián)網(wǎng)+ 新常態(tài)下的商業(yè)機(jī)會】等暢銷書作者;

4《中國經(jīng)營報(bào)》《商界》《商界評論》《銷售與市場》等近十家報(bào)刊、雜志特約評論員;

5鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者;

6“腦藝人”(腦力手藝人)概念提出者,現(xiàn)演變?yōu)椤白悦襟w”,成為一個(gè)行業(yè);

7騰訊全媒派榮譽(yù)導(dǎo)師、多家科技智能公司傳播顧問。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2020-08-25
摘取AI的皇冠明珠NLP后,百度將它鑲嵌進(jìn)了產(chǎn)業(yè)之中
文 | 曾響鈴來源 | 科技向令說當(dāng)AI發(fā)展借新基建東風(fēng)進(jìn)一步加速后,每個(gè)垂直門類都開始表現(xiàn)出一邊深化技術(shù)、一邊廣拓生態(tài)的兩大特征。最近的百度大腦語言與知識技術(shù)峰會直接表現(xiàn)了這一點(diǎn)。

長按掃碼 閱讀全文