文心一言,百度拾起一桿AI新槍

計算機科學(xué)家吳恩達曾在《為什么AI是新電能》中如是寫道:如今我絞盡腦汁,也想不出幾年后還有什么行業(yè)是AI改變不了的。

AI發(fā)展歷史上,曾有過三座里程碑:第一次是1997年,藍色巨人IBM旗下的AI“深藍”擊敗國際象棋大師卡斯帕羅夫;另一次則要回溯到2016年——谷歌旗下的AI機器人AlphaGo在“人機大戰(zhàn)”中,第一次擊敗人類職業(yè)圍棋冠軍李世石。

這之后,AI行業(yè)經(jīng)歷了從極速繁榮到資本退潮,行業(yè)隨之步入數(shù)年的低谷期,一直到去年ChatGPT的橫空出世。作為后疫情時代的一個絕佳故事腳本,尤其在其三個月達到過億用戶爆火之后,ChatGPT這類大語言模型就像一顆燎原的星星火種,在科技公司間急速蔓延,引得大洋兩岸那些曾經(jīng)高昂頭顱的互聯(lián)網(wǎng)巨頭們紛紛趨之若鶩,躬身入局。

百度當(dāng)然對此也躊躇滿志,官宣將在3月份推出新一代的大語言模型“文心一言”。據(jù)36氪報道,其內(nèi)部曾討論過兩種方案,一種是推出獨立入口(類似此前百度推出的AI畫作平臺“文心一格”);另一種則是將文心一言與現(xiàn)有的百度搜索入口打通。

但無論究竟是何種形式,作為國內(nèi)AI領(lǐng)域的代表龍頭,百度此刻率先出陣,究竟意欲何為?中國的大語言模型是否真的能支撐起其夢想的星辰大海?百度曾經(jīng)定下的“All in AI”路線又是否到了收獲的季節(jié)?

新的星辰大海?

2023年2月22日,百度發(fā)布了截至2022年12月31日的第四季度及全年未經(jīng)審計的財務(wù)報告。據(jù)財報顯示,2022年,百度實現(xiàn)營收1236.75億元,歸屬百度的凈利潤(非美國通用會計準(zhǔn)則,下同)為206.8億元,同比增長10%。其中第四季度,實現(xiàn)營收330.77億元,凈利潤為53.71億元,同比大漲32%。2022財年,百度核心連續(xù)四個季度業(yè)績超市場預(yù)期。

隨著疫情后經(jīng)濟復(fù)蘇,疫情邏輯對公司業(yè)績影響逐步弱化,百度收入環(huán)比增長得以持續(xù)改善,而Q4同比增長的幅度略弱于Q3,說明去年放開之后的疫情的短期沖擊對公司收入仍產(chǎn)生了一定的壓制。

從凈利潤上來看,自去年Q2以來,單季均保持在50億以上,這表明以百度目前的業(yè)務(wù)結(jié)構(gòu),核心業(yè)務(wù)盈利能力相對穩(wěn)定;而仰賴于非廣告業(yè)務(wù)的戰(zhàn)略轉(zhuǎn)型、降本增效以及21年Q4的低基數(shù)效應(yīng),這三大核心因素的向上共振,2022年Q4得以出現(xiàn)大幅增長。

但由于宏觀經(jīng)濟在趨勢上的慣性,短期內(nèi)廣告主的投放意愿明顯降低。

據(jù)數(shù)據(jù)顯示,10月、11月國內(nèi)廣告市場總刊例支出分別同比下滑16%和11%。但資本市場對2023年的經(jīng)濟修復(fù)頗為樂觀,廣告業(yè)務(wù)與宏觀經(jīng)濟關(guān)聯(lián)度較高,隨著今年經(jīng)濟復(fù)蘇的逐步兌現(xiàn),百度的主營廣告業(yè)務(wù)或?qū)⒃?023年迎來明顯修復(fù)。

而從營收數(shù)據(jù)占比來看,百度營收如今更趨多元化,非廣告營收占比逐季增加。

其中百度核心收入總計954億元人民幣,與去年基本持平;廣告收入為695億元,非廣告收入為259億元,同比增長22%,主要受百度智能云及其他AI業(yè)務(wù)的推動。很明顯百度以科技為內(nèi)核的非廣告業(yè)務(wù)逐步開始兌現(xiàn)業(yè)績,有望成為公司新的業(yè)績增長動能。

而被視為人工智能里程碑的大語言模型無疑是當(dāng)下一個最好的商業(yè)化敘事敲門磚。

2月8日,谷歌發(fā)布了基于LaMDA模型的對話機器人Bard,當(dāng)其在發(fā)布會上被問到“如何向9歲的孩子介紹NASA的詹姆斯·韋伯太空望遠鏡的新發(fā)現(xiàn)”時,Bard給出了一條遠稱不上“新發(fā)現(xiàn)”的答案,而這一小小的bug,卻令當(dāng)日谷歌的股價暴跌7.68%,市值蒸發(fā)超過1000億美元;幾乎同一時間,宣布推出由ChatGPT支持NewBing搜索引擎的微軟市值一天卻飆漲超800億美元。

而在此前一天,百度官宣了“文心一言”項目,坐實此前其正對標(biāo)美國AI聊天機器人ChatGPT開發(fā)應(yīng)用的傳言。消息公布當(dāng)天,百度港股股價曾一度大漲15%,美股股價漲幅也達12%。

單憑一個概念便能攪動資本市場風(fēng)云,大語音模型所承載的商業(yè)化前景不言自明,這對于已經(jīng)深耕人工智能多年的百度來說,是一個絕不能錯過的風(fēng)口。

如今百度智能云的市場份額居全球第四,收入增速也高于云市場大盤。但受疫情影響,對智能云的交付產(chǎn)生一定拖累,以及市場整體的增長放緩,因此百度智能云在22年Q4的收入同比才出現(xiàn)一定程度的放緩。

隨著2月17日,百度宣布其生成式AI產(chǎn)品“文心一言”將通過百度智能云對外提供服務(wù),率先在內(nèi)容和信息相關(guān)的行業(yè)和場景落地。文心一言的接入,無疑將進一步增強百度智能云在云服務(wù)市場的競爭力。

在此次發(fā)給百度全員的財報信中,李彥宏就重點介紹了百度將在三月份推出的生成式AI產(chǎn)品文心一言,宣布計劃將多項主流業(yè)務(wù)與文心一言整合。并表示:“中國AI市場即將迎來爆發(fā)性的需求增長,其商業(yè)價值的釋放將是前所未有的、指數(shù)級的。而百度作為中國人工智能市場長期增長的最佳代表,正站在浪潮之巔”。

所以此時唯一的問題便在于,百度如何做好文心一言?

時代選擇了百度

此前對于元宇宙一直不甚感冒的李彥宏,卻在公開場合絲毫不掩飾其對于AIGC以及ChatGPT的重視,甚至有報道稱其直接把自己的2023年OKR定為:“引領(lǐng)搜索體驗的時代變革”。

而實際上李彥宏也的確有足夠的底氣定下如此的OKR:從目前來看,不論從技術(shù)還是應(yīng)用層面,大語言模型和百度都十分契合。

技術(shù)層面上,由于語義理解需要海量數(shù)據(jù)讓AI理解常識而壁壘較高,因此自然語言處理(NLP)也被視為“人工智能皇冠上的明珠”,往往誰能實現(xiàn)在NLP技術(shù)的突破,誰就能在AI領(lǐng)域一騎絕塵。

早在百度誕生之時、從百度處理用戶的第一次搜索開始,NLP技術(shù)就成為搜索技術(shù)的重要組成部分,并伴隨著百度的快速發(fā)展,同步壯大,可以說NLP技術(shù)和搜索業(yè)務(wù)天然契合。

2010年初,百度正式成立自然語言處理部,并不斷在語音、圖片等技術(shù)上布局,敲定了在知識圖譜技術(shù)上長期投入的戰(zhàn)略;2019年3月,百度提出知識增強的語義理解框架ERNIE,半年后,百度又發(fā)布了PLATO-XL,一舉超過Facebook Blender、谷歌 Meena和微軟DialoGPT,成為全球首個百億參數(shù)中英文對話預(yù)訓(xùn)練生成模型。

得益于超前的布局和投資,百度取得的成績也有目共睹。

2018年2月21日,百度 NLP團隊研發(fā)的V-Net模型以46.15的Rouge-L得分登上微軟的MS MARCO機器閱讀理解測試排行榜首;2019年12月,百度文心ERNIE又以9個任務(wù)平均得分首次突破90大關(guān)的好成績,刷新GLUE(通用語言理解評估基準(zhǔn))榜單歷史奪得榜首;一年后,百度ERNIE 又以 90.9 的分數(shù)領(lǐng)先谷歌 T5、微軟DeBERTa、TuringNLRv4,以及阿里巴巴、華為等研發(fā)的其他同類別技術(shù),再度蟬聯(lián)。

所以從目前的表現(xiàn)來看,中國還沒有一家公司的NLP技術(shù)水平接近百度,也沒有任何一家公司能利用這個技術(shù)挑戰(zhàn)百度。

另一方面,百度開發(fā)文心一言所需的基礎(chǔ)能力也并不是從零開始。

從2017年6月,Google發(fā)布論文《Attentionisallyouneed》,首次提出Transformer模型,奠定GPT模型發(fā)展的基礎(chǔ),到2022年11月30日,OpenAI推出ChatGPT模型,并提供試用。僅僅不足6年時間,大語言模型便走完從理論到現(xiàn)實的歷程,其核心催化就在于算法+數(shù)據(jù)+算力的共振。

而百度恰好在此三項都擁有足夠的領(lǐng)先優(yōu)勢,又得益于在芯片、框架、模型、應(yīng)用四層技術(shù)棧均有布局,百度的大語言模型相關(guān)技術(shù),在中國乃至全球范圍均具有綜合優(yōu)勢。

例如算法方面,百度擁有多個云計算可用區(qū)、龐大的超算集群,奠定大模型訓(xùn)練的基礎(chǔ)設(shè)施;算力方面,百度自研AI芯片“昆侖”,已完成無人駕駛場景端到端性能適配,并在多場景實際部署幾萬片,在公司搜索業(yè)務(wù)中也已形成較強工程化實踐,因此算力也有所保證;而數(shù)據(jù)層面,百度的搜索業(yè)務(wù)每天處理上百PB的用戶數(shù)據(jù),在真實數(shù)據(jù)和用戶需求理解方面的積累有較強的先發(fā)優(yōu)勢,這些大規(guī)模結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)完全可以支撐大模型的充分預(yù)訓(xùn)練。

其中百度的文心大模型和Open AI的GPT模型基本類似,自2019年推出后,已經(jīng)迭代多次,從單一的自然語言理解延伸到多模態(tài),包括視覺、文檔、文圖、語音等多模態(tài)多功能,因此“文心一言”所基于的ERNIE系列模型也已經(jīng)具備較強泛化能力和性能。以最新發(fā)布的ERNIE 3.0 Zeus為例,該模型迭代于ERNIE 3.0,擁有千億級參數(shù)。其已經(jīng)具備智能創(chuàng)作等各類自然語言理解和生成任務(wù),且公開數(shù)據(jù)集上小樣本學(xué)習(xí)、理解和生成任務(wù)效果皆好于業(yè)界其他模型。

此外,文心大模型作為本土化的AI模型,具備對中文、甚至中國文化的更深理解,這意味著文心一言會更適合中文和中國市場。

而在具體的應(yīng)用層面,文心一言更是為百度量身打造的開山利斧。

ChatGPT本質(zhì)上還是自然語言生成式AI,能提供高度智能的對話式問答結(jié)果,這顯然很適用于搜索場景。而作為中文互聯(lián)網(wǎng)搜索的龍頭巨擘,如果百度能在搜索生成上取得足夠大的先發(fā)優(yōu)勢,這無異于又是一張互聯(lián)網(wǎng)新時代的船票。

事實上,百度從2021年就開始嘗試把AIGC與搜索兩者結(jié)合起來,而在今年1月初的百度Create AI開發(fā)者大會上,百度也宣布將基于百度自研的生成式模型,升級“生成式搜索”能力。同時還表示,搜索與生成式AI之間的關(guān)系更像是互補而非單一替代關(guān)系。

而在人員調(diào)度方面,據(jù)36kr的報道,此次“文心一言”的籌備團隊主要由TPG(技術(shù)中臺事業(yè)群)、MEG(移動生態(tài)事業(yè)群)兩大部門協(xié)同。前者負責(zé)技術(shù)攻堅,后者進行搜索、內(nèi)容產(chǎn)品承接。并且由CTO王海峰任項目總指揮,百度集團副總裁吳甜(同時擔(dān)任深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心副主任)、百度技術(shù)委員會主席吳華等人任帶隊高管。

可以說此次百度做文心一言已經(jīng)占據(jù)天時和地利人和的先機,不僅是百度選擇了文心一言,而是憑借多年的苦心經(jīng)營、研發(fā)投入,有了如今的技術(shù)沉淀后,如今的AI時代再次選擇了百度。

未來的時代奇點

李彥宏認為:“ChatGPT是AI技術(shù)發(fā)展到一定階段后的新機會。怎么把這么酷的技術(shù),變成人人需要的產(chǎn)品,讓每天有幾億人從中受益?怎么賦能千行百業(yè),讓他們的生產(chǎn)效率大幅度地提升?這一步才是最難的,也是最偉大、最能夠產(chǎn)生影響力的”。

因此如何將吹得天花亂墜的技術(shù),實際賦能落地到實處已成為當(dāng)下所有入局玩家亟需解決的眼前之事。

李彥宏說:“2022年是大模型產(chǎn)業(yè)化應(yīng)用的元年,大模型已成為許多上層應(yīng)用的技術(shù)底座”。實際上在AI大模型這個競爭領(lǐng)域,馬太效應(yīng)十分明顯,領(lǐng)先一步常常持續(xù)領(lǐng)先,強者恒強,但百度文心模型的兩大特色已助其先行一步。

一是知識增強,全球獨一的技術(shù),文心大模型從大規(guī)模知識圖譜和海量無結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí),學(xué)習(xí)效率更高、效果更好,具有良好的可解釋性。二是產(chǎn)業(yè)級,文心大模型的技術(shù)源于產(chǎn)業(yè)并且致力于推動產(chǎn)業(yè)智能化升級,通過用戶的反饋與各個產(chǎn)業(yè)相結(jié)合,更好地解決用戶的需求。

當(dāng)然百度能有今天的技術(shù)沉淀離不開其十?dāng)?shù)年如一日的投資研發(fā)。

2009年8月,在當(dāng)年的百度技術(shù)創(chuàng)新大會上李彥宏首次提出“框計算”的概念:用戶只要在“百度框”中輸入服務(wù)需求,系統(tǒng)通過用戶提交的需求進行語義分析、行為分析、人機交互和海量計算處理之后,就能將搜索與服務(wù)對接。

作為最早智能搜索的雛形,而后十幾年,百度在“燒錢”的AI路上一去不返。

2020年,李彥宏在一次論壇上提到:“過去十年,百度每年研發(fā)投入占營收15%以上,其中AI技術(shù)研發(fā)就是百度種下的種子之一”。一年后,百度在港交所二次上市,募集資金里有一半用作持續(xù)科技投資,用于促進以人工智能為主的創(chuàng)新業(yè)務(wù)商業(yè)化。

目前,百度是全球為數(shù)不多的、進行全棧布局的人工智能公司,10年間投入高達1000億元,每年研發(fā)占收入比例都超過15%,去年更是達到了23%。但按照歷史經(jīng)驗,技術(shù)的超前投入往往如空中樓閣,AI只有與業(yè)務(wù)結(jié)合,為其提供支撐才能走得更遠。

在無人駕駛領(lǐng)域,百度親自下場。2022年Q4,百度自動駕駛出行服務(wù)平臺蘿卜快跑訂單量達到56.1萬,同比增長162%。截至2023年1月底,蘿卜快跑累計訂單量超過200萬單,穩(wěn)居全球最大的自動駕駛出行服務(wù)提供商。

2021年集度汽車成立后,文心又與吉利建立了行業(yè)模型,對智能客服系統(tǒng)、車載語音系統(tǒng)、領(lǐng)域知識庫構(gòu)建進行提升。自己掌握汽車硬件和智能駕駛系統(tǒng)層,百度在無人駕駛領(lǐng)域的數(shù)據(jù)和反饋直接用于訓(xùn)練硬件軟件系統(tǒng),推動無人駕駛能力提升,這是百度AI模式的一個典型。

另一方面根據(jù)IDC、Strategy Analytics和Canalys的市場數(shù)據(jù),小度在2022年前三個季度再次取得中國智能音箱和智能屏出貨量雙第一。未來,小度也將融合文心一言,打造針對智能設(shè)備場景的人工智能模型“小度靈機”,升級多輪對話能力。

此外對于百度而言,語言大模型的另一個價值在于推動AIGC發(fā)展。從這一角度來看,語言大模型作為文字模態(tài)的AIGC發(fā)展?jié)摿Υ螅梢耘c圖形模態(tài)的AIGC相結(jié)合,打造從文字描述到圖片生成的AI輔助工具,形成效率和成本上的優(yōu)勢。

說白了,互聯(lián)網(wǎng)的核心是流量,流量的核心是內(nèi)容。而 AIGC 的本質(zhì),就是一項生產(chǎn)內(nèi)容的技術(shù)。誰掌握了內(nèi)容,就等同掌握了流量,而掌握了流量就掌握了商業(yè)競爭的最大主動。AIGC作為內(nèi)容業(yè)務(wù)的開山斧、催化劑,誰先擁有AICG、誰先應(yīng)用AICG,將進一步成為決定平臺內(nèi)容命運的關(guān)鍵變量。

因此在百度,AI與業(yè)務(wù)的結(jié)合可以說是全方位的。視覺的自動駕駛層面有Apollo,語音的智能交互有小度和DuerOS,云計算領(lǐng)域有百度智能云,在作為百度現(xiàn)階段基底的MEG中,AIGC與內(nèi)容的結(jié)合補齊了最后一塊拼圖。百度的千億投入,沁潤進了自身的每一塊業(yè)務(wù)版圖,也有了得以價值最大化和持續(xù)發(fā)展的可能性。

誠然,技術(shù)能夠提供怎樣的價值,最終還是在于如何將其封裝進產(chǎn)品,對生成式 AI 也是如此。所以當(dāng)技術(shù)已經(jīng)進步,老船長是否還能再次揚帆起航,答案已經(jīng)寫在不久的將來。

寫在最后

如果從2017年高調(diào)宣布 “All in AI” 算起,百度押注AI產(chǎn)業(yè)已經(jīng)有6年了;而如果從更早的2013年建立美國研究院算起,百度投身AI則有十年了。站在當(dāng)下的時間節(jié)點回顧過往,在試圖引領(lǐng)下一輪技術(shù)浪潮AI的革命的漫長等待途中,百度錯過了一些風(fēng)口。

即便百度稱自己在過去10年投入了1000億研發(fā)資金,但AI的投入所帶來的反響卻并未如預(yù)期般熱烈。就在這種彌漫著沮喪的行業(yè)氛圍中,AIGC的出現(xiàn)就猶如漫漫黑夜中的一絲螢火,點燃了沉寂已久的AI熱潮。

對于百度而言,長期的詩和遠方需要一個具象的落腳點,而業(yè)界對于ChatGPT的熱情,讓這個落腳點終于清晰了起來。所以這就好比一段雙向奔赴的戀愛,既是時代選擇百度,也是百度主動選擇文心一言,擁抱了時代。

而從目前結(jié)果來看,能把大語言模型做好的,的確也是百度文心一言。文心一言能做到什么程度,甚至是否真的能超過ChatGPT,成為百度期盼已久的“第二增長曲線”,讓我們靜待文心一言的表現(xiàn)吧。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-02-22
文心一言,百度拾起一桿AI新槍
計算機科學(xué)家吳恩達曾在《為什么AI是新電能》中如是寫道:如今我絞盡腦汁,也想不出幾年后還有什么行業(yè)是AI改變不...

長按掃碼 閱讀全文