清華大學(xué)教授孫茂松:理解大模型機理建立AI新理論

7月27日消息,25日,清華大學(xué)人工智能研究院教授、歐洲人文和自然科學(xué)院外籍院士孫茂松在浦江基礎(chǔ)科學(xué)發(fā)展論壇期間接受采訪時表示,根據(jù)現(xiàn)有文本分析、不生成新文本的理解類大模型不存在“幻覺”。但像ChatGPT這樣生成類的大模型,對話需要與事實對齊,這還要付出很大的努力,也是目前的研究熱點。

澎湃新聞報道,孫茂松表示,當(dāng)前業(yè)界對于ChatGPT的舉一反三還處于“知其然,不知其所以然”的階段,只有搞清楚大模型的機理,才有可能克服現(xiàn)有人工智能大模型的局限性,超越現(xiàn)有大模型,建立下一代人工智能理論和模型。而人工智能最前沿之爭就是人才的競爭,頂尖高手決定了人工智能的高度,廣泛的應(yīng)用決定了人工智能的廣度。

理解大模型機理,才能克服局限建立下一代AI理論

人們常常忽略語言的重要性,因為語言自然得就像空氣一樣。但只有人類才有語言能力,語言的地位極其重要。而ChatGPT的出現(xiàn)讓機器也有了語言對話的能力,孫茂松說,這是5000年未有之變局,也會催生一系列新應(yīng)用。

但對于ChatGPT,“現(xiàn)在是知其然,不知其所以然。OpenAI開發(fā)出了這樣的現(xiàn)象,但為何會產(chǎn)生智能涌現(xiàn)這樣的現(xiàn)象還說不清?,F(xiàn)在人工智能領(lǐng)域的大公司、大機構(gòu)都在拼命往前跑,把大模型效果做得更好,還沒有時間停下來深刻地思考大模型的機理?!睂O茂松表示,這就像蒸汽機帶來了工業(yè)革命,但直到大約100年后在熱力學(xué)三定律之下才解釋清楚。

大模型里的元素事關(guān)數(shù)學(xué),當(dāng)前大模型的參數(shù)到了萬億級,應(yīng)用數(shù)學(xué)家從來沒有解過如此大的方程組,并且大模型涉及到的數(shù)學(xué)問題與經(jīng)典數(shù)學(xué)完全不同,這為理解大模型機理帶來了挑戰(zhàn)。

但孫茂松認為,只有搞清楚大模型的機理,才有可能克服現(xiàn)有人工智能大模型的局限性,超越現(xiàn)有大模型,建立下一代人工智能理論和模型。而這不會再像蒸汽機那樣需要100年才能理解機理,他相信三五年時間就能突破大模型的機理研究。

語料利用處于粗放階段,減少大模型幻覺是研究熱點

目前大模型的語料利用還處于粗放階段,僅僅是從互聯(lián)網(wǎng)上抓取語料,還沒有涉及網(wǎng)頁中的超鏈接和圖片處理、文本結(jié)構(gòu)的識別與利用等。孫茂松表示,“大模型寫短文可以寫得很好,但寫長文、短篇小說不行,它沒有辦法保持大邏輯流暢、人物角色連貫。因為大模型就是對下一個詞的預(yù)測,預(yù)測得再好,它對語料的利用還是有深刻的不足?!?/p>

除此之外,孫茂松表示,要對語料質(zhì)量保持足夠關(guān)注,剔除語言不通順的語料、計算機生成的語料,利用質(zhì)量好的語料。但水至清則無魚,越純的語料可能導(dǎo)致多樣性損失,例如喂給大模型的都是“高大上的語料”,大模型就看不懂帶有表情符號的語料。因此要追求平衡,根據(jù)應(yīng)用判斷什么是好的語料。

大模型存在“幻覺”,常常一本正經(jīng)地“胡說八道”。但孫茂松表示,“幻覺”是能力強的表現(xiàn),是創(chuàng)新的源泉。大模型分為生成模型和理解模型,前者如ChatGPT,孫茂松說,以前要讓計算機通順地說話是做不到的,因為詞與詞的組合關(guān)系復(fù)雜?,F(xiàn)在做到了通順,但并不意味著所說的話是正確的,語義層、語用層都需要和現(xiàn)實世界對齊。

“比如機器回答在上海城隍廟吃了上海小籠包和上??绝?,從語言角度來看,這都沒有問題。哪個更符合事實,它就不知道了,這就需要人介入進來?!睂O茂松表示,大模型的對話需要與事實對齊,這還要付出很大的努力,也是目前的研究熱點。

對于后者,模型根據(jù)現(xiàn)有文本進行分析,不生成新的文本,只理解不說話,就不存在“幻覺”。利用這種理解模型,打通語料,讓機器自主學(xué)習(xí),就可以依靠模型查詢相似詩句,例如哪一詩句和杜甫《絕句》中的“一行白鷺上青天”最接近?大模型的回答是宋代《野景》中的“白鷺一行登碧霄”,這就是大模型所擅長的。

AI最前沿之爭是人才的競爭,頂尖高手決定高度

這一波人工智能浪潮起于2010年,彼時學(xué)術(shù)界和工業(yè)界都在開足馬力研究,積累了充分的經(jīng)驗,ChatGPT的出現(xiàn)為人工智能點了一把火。孫茂松表示,國內(nèi)的“百模大戰(zhàn)”并非貶義,而是實力的象征。未來通用大模型支撐垂直模型的開發(fā),絕大多數(shù)從業(yè)者將不會把主要精力放在基礎(chǔ)模型上,而是面向行業(yè)應(yīng)用開發(fā)垂直模型。

但在通用大模型方面,“我們確實在跟跑,跟領(lǐng)跑者的差距很明顯。這半年我們把差距縮小了,但沒有質(zhì)的變化?!睂O茂松表示,在ChatGPT之前,國內(nèi)的大模型研究和國外相比差半個肩位,ChatGPT出現(xiàn)后甩開100米,這半年追了幾十米,但在關(guān)鍵性能上還有差距。如果能夠研究透徹大模型的機理,就可能棋高一著。

無論是模型還是應(yīng)用,都離不開硬件廠商或云服務(wù)商,算力目前是最稀缺的資源。啟明創(chuàng)投發(fā)布的《生成式AI》報告顯示,GPU的性能實際上決定了這個新興行業(yè)的步調(diào),但從長期來看,人才對人工智能未來的影響超過算力。

孫茂松同樣認為,人工智能最前沿之爭就是人才的競爭,頂尖高手決定了人工智能的高度,廣泛的應(yīng)用決定了人工智能的廣度。人工智能的發(fā)展需要一流的人才,這些人才除了具備頂尖的能力,還要有遠大的科學(xué)理想、敏銳的洞察力和對技術(shù)的激情。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-07-27
清華大學(xué)教授孫茂松:理解大模型機理建立AI新理論
AI最前沿之爭就是人才的競爭。

長按掃碼 閱讀全文