階躍星辰姜大昕、月之暗面楊植麟、生數(shù)科技朱軍,云棲大會激辯“通往AGI的大模型發(fā)展之路”

9月20日消息,在2024云棲大會上,極客公園創(chuàng)始人、總裁 張鵬對話階躍星辰創(chuàng)始人、首席執(zhí)行官姜大昕,月之暗面Kimi創(chuàng)始人 楊植麟,清華大學(xué)人工智能研究院副院長、生數(shù)科技首席科學(xué)家朱軍,三人對AGI發(fā)展現(xiàn)狀和未來展望進(jìn)行了激烈討論和前瞻展望。

2024年,AI 發(fā)展變慢了嗎?過去18個月,AGI的發(fā)展是加速還是減速?如何評價OpenAI 最新發(fā)布的 O1 模型?強(qiáng)化學(xué)習(xí)將改變什么?大模型時代的創(chuàng)業(yè)新范式是什么?

姜大昕表示AI 技術(shù)發(fā)展加速, AI 發(fā)展正在經(jīng)歷關(guān)鍵的技術(shù)范式迭代: OpenAI 的大模型 o1 探索出了通過強(qiáng)化學(xué)習(xí)讓 AI 具備人類慢思考(可主動反思、糾錯的復(fù)雜思考)能力的方式,接下來提升強(qiáng)化學(xué)習(xí)模型的泛化能力和加速推進(jìn)多模態(tài)理解生成一體化是 AI 技術(shù)進(jìn)一步突破的關(guān)鍵。階躍星辰積極探索新的技術(shù)范式,已經(jīng)在萬億參數(shù)模型上實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)訓(xùn)練的方法論。同時,持續(xù)打磨更高性能的底層大模型,提升C端產(chǎn)品體驗(yàn)。據(jù)他透露,近期階躍星辰自研的 Step-2 萬億參數(shù) MoE 語言大模型已接入智能助手“躍問”,展現(xiàn)出更強(qiáng)大的指令跟隨、創(chuàng)作和推理能力。

談到AI產(chǎn)品未來的可能形態(tài),楊植麟表示,以后的AI可能要思考或者調(diào)用各種工具,它可能執(zhí)行分鐘級別、小時級別甚至天級別的任務(wù),所以產(chǎn)品形態(tài)上可能會更接近一個人,它更接近“助理”的概念,幫你完成異步的任務(wù)。這里面的產(chǎn)品形態(tài)設(shè)計可能也會發(fā)生很大的變化,想象空間蠻大。

談到未來18個可能發(fā)生的事情,朱軍表示,預(yù)想未來18個月可能比較令人興奮的一個進(jìn)展,我希望看到AGI的L3已經(jīng)基本上實(shí)現(xiàn)。至少在智能體,比如我們說的世界模型的創(chuàng)建生成、虛實(shí)融合,至少在一些特定場景下的決策能力的巨大的提升。其實(shí)它會利用我們今天講到的推理、感知等等。

以下為對話實(shí)錄摘錄:

主持人:從ChatGPT的發(fā)展,引發(fā)了整個世界對于AGI這個事情的理解,發(fā)展到現(xiàn)在也18個月了。各位的感受是怎么樣的,過去18個月,AGI的發(fā)展是加速還是減速?

姜大昕:我覺得過去18個月速度還是在加速的,速度還是非??斓?。因?yàn)楫?dāng)我們回顧過去18個月發(fā)生的大大小小的AI事件以后,可以從兩個維度去看,一個是數(shù)量的角度,一個是質(zhì)量的角度。

從數(shù)量的角度來看,還是每個月都會有新的模型、新的產(chǎn)品、新的應(yīng)用涌現(xiàn)出來。比如單從模型來看,OpenAI 2月份發(fā)了一個sora,我記得當(dāng)時還是過年的時候,把大家轟炸了一下。然后5月份出了一個GPT-4o,上周又出了o1。OpenAI的老對手Anthropic它有Claude3到Claude3.5的系列,再加上谷歌Gemini系列、Claude系列、LLaMA的系列,等等。

所以,回顧過去,我們的感覺還是GPT-4是一家獨(dú)大,遙遙領(lǐng)先。到了今年就變成了一個好像是群雄并起,你追我趕的局面,所以感覺各家是在提速了。

從質(zhì)量的角度來看,我覺得有三件事情可能給我的印象非常的深刻。

第一件事情,GPT-4O的發(fā)布。因?yàn)槲铱此?,認(rèn)為它是在多模融合這樣的一個領(lǐng)域上了一個新的臺階。在GPT4O之前,是有GPT4V,它是一個視覺的理解模型,有Dalle、Sora,這是視覺的生成模型。還有Whisper這是聲音模型。所以原本這些孤立的模型到了4O這里都融合在一起了。

那為什么融合這件事情非常的重要?是因?yàn)槲覀兊奈锢硎澜绫旧砭褪且粋€多模的世界,所以多模融合一定是有助于更好的去為我們的物理世界建模,去模擬世界這樣一件事情。

第二件事情,特斯拉發(fā)布的FSD V12。大家知道它是一個端到端的大模型,它把感知信號變成一個控制序列。智駕是一個非常有代表性的,它是一個從數(shù)字世界走向物理世界一個真實(shí)的應(yīng)用場景。所以,我覺得FSDV12它的成功,意義不僅在于智駕本身,這套方法論可以認(rèn)為是為將來的智能設(shè)備如何和大模型相結(jié)合,更好的去探索物理世界指明了一個方向。

第三件事情,上周的O1,我對它的理解,它第一次證明了語言模型其實(shí)也可以有人腦的慢思考,就是系統(tǒng)2的能力。而我們覺得系統(tǒng)2的能力它是歸納世界所必備的一個前提條件,是一個基礎(chǔ)的能力。所以,我們一直認(rèn)為,AGI的演進(jìn)路線可以分為模擬世界、探索世界、最后歸納世界。而過去幾個月的時間我們看到GPT4O、FSD V12和O1分別在這三個階段或者這三個方向上都取得了非常大的突破,而且更重要的是為將來的發(fā)展也指明了一個方向。所以無論是從數(shù)量還是質(zhì)量上來說,都是可圈可點(diǎn)。

楊植麟:我覺得整體也是屬于加速發(fā)展的階段,核心可以從兩個維度來看(AI的發(fā)展),第一個維度是縱向的維度,也就是說你的智商是一直在提升的,這個主要現(xiàn)在的反應(yīng)方式還是你去看文本模型能做到多好。第二個是橫向的發(fā)展。除了文本模型之外,剛才姜總提到的,也會有各種不同的模態(tài),這些模態(tài)會做一個橫向的發(fā)展,更多的讓你這個模型具備更多的技能,能夠去完成更多的任務(wù),然后同時跟縱向的智商的發(fā)展相結(jié)合。

在這兩個維度上,我覺得都看到了非常大的進(jìn)展,比如說在縱向的維度上,其實(shí)智商是一直在提升的,比如說我們?nèi)绻タ锤傎悢?shù)學(xué)能力,去年是完全不及格,到今年已經(jīng)能做到90多分,像代碼基本上也是一樣,能夠擊敗很多專業(yè)的編程選手,包括因此也產(chǎn)生了很多新的應(yīng)用機(jī)會,比如說像現(xiàn)在比較流行的類似curser這樣的,通過自然語言直接去寫代碼的這樣的軟件也越來越普及,這是技術(shù)發(fā)展的結(jié)果。包括我們?nèi)タ春芏嗑唧w的技術(shù)指標(biāo),現(xiàn)在的語言模型能支持的上下文的長度,我們?nèi)绻ツ赀@個時間點(diǎn)去看的話,大部分的模型都只能支持4K-8K的,但是從今天去看你會發(fā)現(xiàn)4K-8K已經(jīng)是非常低的數(shù)了,128K是一個標(biāo)配,已經(jīng)有很多可以支持1M甚至10M的長文本的長度。所以,它這個其實(shí)也是后面你的智商不斷提升的一個很重要的基礎(chǔ)。

包括最近的很多進(jìn)展,它不光只是說Scaling,Scaling還是會持續(xù)。而且很多進(jìn)展也來自于你的后訓(xùn)練算法的優(yōu)化,來自于你數(shù)據(jù)的優(yōu)化,這些優(yōu)化它的周期是會更短的。所以,這個周期更短導(dǎo)致你整體AI發(fā)展節(jié)奏也會進(jìn)一步加快,包括我們最近在數(shù)學(xué)上看到的很多進(jìn)展,其實(shí)也是得益于這些技術(shù)的發(fā)展。

橫向上當(dāng)然也產(chǎn)生了很多新的突破,當(dāng)然Sora可能是影響力最大的,在這里面完成了這個視頻生成。包括最近有特別多新的產(chǎn)品和技術(shù)出來,現(xiàn)在你已經(jīng)可以通過一個論文直接生成基本上你看不出來是真是假的雙人的對話。類似這樣的不同模態(tài)之間的轉(zhuǎn)化、交互和生成,其實(shí)會變的越來越成熟。所以,我覺得整體是在加速的過程中。

朱軍:AGI這里面大家最關(guān)注的還是大模型,剛才兩位也講了去年包括今年大模型也發(fā)生了很多重要的變化。整個的進(jìn)展我是非常同意剛才講到的,在加快。

另外,我想補(bǔ)充一點(diǎn),大家在解新的問題,這個速度也在加快了,我們說它的Leaning corve在變的更陡。原來如果你看語言模型,可能從2018年最早去做的,到去年以及到今年,大家走了五六年的路。但其實(shí)從去年開始,上半年大家還是關(guān)注語言模型,下半年在討論多模態(tài),從多模態(tài)理解再到多模態(tài)生成。我們再回過頭看的話,比如說圖像或者視頻,其實(shí)視頻最明顯,從今年的2月份,當(dāng)時很多人被震驚到了,因?yàn)樗芏鄾]有公開,就說怎么去突破?有很多的討論。但事實(shí)上我們現(xiàn)在看到這個行業(yè)里面,大概用了半年的時間,已經(jīng)做到了可以去用,而且達(dá)到了一個很好的一些效果,在時空一致性上。所以大概走了半年的路。

所以這里面加速的一個最核心的原因,現(xiàn)在大家對這種路線的認(rèn)知和準(zhǔn)備上,達(dá)到了比較好的程度。當(dāng)然我們還有物理的條件,比如說像云的設(shè)施,計算的資源的準(zhǔn)備上,不像ChatGPT當(dāng)時出來的時候,大家當(dāng)時更多的是一種不知所措,我覺得很多人可能沒準(zhǔn)備好去接受這個,所以中間去花了很長時間去學(xué)習(xí)、去掌握這個。當(dāng)我們掌握了之后再發(fā)現(xiàn)這個進(jìn)展的話,再去做新的問題,其實(shí)它的速度是越來越快的。

當(dāng)然,這個可能不同的能力它再輻射到實(shí)際的用戶的角度來說,有一些快慢之分,當(dāng)然也分行業(yè)。這個可能在廣泛的角度來說,大家可能沒感知到。但是從技術(shù)來說,其實(shí)這個進(jìn)展我感覺是曲線越來越陡,而且可能對后邊我們要預(yù)測未來的話,包括向更高階的AGI發(fā)展,我是比較樂觀的,可能會看到比之前更快的速度去實(shí)現(xiàn)了。

主持人:最近OpenAI剛剛出的O1的新的模型,也是在專業(yè)人群里形成了非常多的影響,現(xiàn)在還在很豐富的討論。怎么評價O1進(jìn)展的意義?

姜大昕:確實(shí)我看到一些非共識,有些人覺得意義很大,有些人覺得也不過如此。我覺得大家如果去試用O1的話,可能第一印象是它的推理能力確實(shí)非常驚艷,我們自己試了很多Query,覺得推理能力確實(shí)上了一個很大的臺階。

然后我們?nèi)ニ伎妓澈蟮囊饬x究竟是什么,我能想到的有兩點(diǎn):1.它第一次證明了Large language model,就是語言模型,它可以有人腦的慢思考的能力。它和以前GPT的范式,或者GPT的訓(xùn)練,它叫,Predict next Token,它只要這樣訓(xùn)練了,就注定了它只有system 1的能力。而O1是用了一個強(qiáng)化學(xué)習(xí)的訓(xùn)練框架,所以帶來了系統(tǒng)2的能力。

系統(tǒng)1的體現(xiàn),它是一個直線性思維,雖然我們看到GPT4有時候可以把一個復(fù)雜的問題拆解成很多步,然后分步去解決,但它還是直線性的。系統(tǒng)1和系統(tǒng)2最大的區(qū)別在于,系統(tǒng)2能夠去探索不同的路徑,它能夠自我去反思、自我去糾錯,然后不斷的試錯,直到找到一個正確的途徑,這是系統(tǒng)2的特點(diǎn)。這次O1,它是把以前的模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來了,使得一個模型同時有了人腦系統(tǒng)1和系統(tǒng)2的能力。所以我覺得從這個角度來看,它的意義是非常大的。

第二,它帶來了一個Scaling Law的新方向,我理解O1試圖回答的一個問題,就是說RL(強(qiáng)化學(xué)習(xí))究竟怎么去泛化。因?yàn)閺?qiáng)化學(xué)習(xí)它不是第一個,DeepMind一直走的是強(qiáng)化學(xué)習(xí)的路線,從AlphaGo到AlphaFold到AlphaGeometry,其實(shí)它在強(qiáng)化學(xué)習(xí)上是非常厲害的。但以前強(qiáng)化學(xué)習(xí)的場景都是會為特定場景去設(shè)計,AlphaGo只能下圍棋,AlphaFold只能去預(yù)測蛋白質(zhì)的結(jié)構(gòu)。所以這次O1的出現(xiàn),它是在RL強(qiáng)化學(xué)習(xí)通用性和泛化性上了一個大的臺階,而且它scale到了一個很大的規(guī)模,所以我把它看成scaling帶來新的技術(shù)范式,我們不妨稱之為RL Scaling。而且我們看到有意思的一點(diǎn),O1并沒有到很成熟的階段,它還是一個開端,但是這個恰恰讓人覺得非常的興奮,這就等于OpenAI跟我們說,我找到了一條上限很高的道路,而且你仔細(xì)去思考它背后的方法,你會相信這條路實(shí)際上是能走得下去。所以O(shè)1從能力上來講,我覺得它展示了Language model可以有系統(tǒng)2的能力,從技術(shù)上來說它帶來新的scaling范式,所以它的意義還是非常大的。

朱軍:我的看法,它是代表著一個顯著的質(zhì)變。我們也對AGI大概做了一些分級,學(xué)術(shù)界,包括產(chǎn)業(yè)界大家有L1-L5的分級。其實(shí)L1的話相當(dāng)于聊天機(jī)器人,就是像ChatGPT等,之前大家做了很多對話的。L2叫推理者,實(shí)際上可以做復(fù)雜問題深度思考的推理。L3叫智能體,回應(yīng)吳總講的“數(shù)字世界”走向“物理世界”,我要去改變的,我要去交互的。L4是創(chuàng)新者,它要去發(fā)現(xiàn)、創(chuàng)造一些新的東西,或者發(fā)現(xiàn)一些新的知識。L5是組織者,它可以去協(xié)同,或者某種組織方式更高效來運(yùn)轉(zhuǎn),這是大家對于AGI L1-L5的分級,當(dāng)然每一級也有narrow和general的區(qū)分,在某些Task上展示出來。比如O1在L2的narrow場景下,在一些特定任務(wù)下已經(jīng)實(shí)現(xiàn)了人類達(dá)到很高階的智能水平。我覺得從分級角度來看,它確實(shí)代表著整個行業(yè)巨大的進(jìn)步。
剛才技術(shù)上姜總也講了,它將過去強(qiáng)化學(xué)習(xí)或者其他一些技術(shù),其實(shí)在研究里已經(jīng)做了很多東西,但實(shí)際上它在大規(guī)模基座模型上能夠做出來的效果,這還是從工程上,或者從實(shí)現(xiàn)上來說對行業(yè)很大的觸動。當(dāng)然它也會錯發(fā)或者激發(fā)出來很多未來的探索,或者實(shí)際的研發(fā),可能會走向從narrow到general的躍遷。剛才講到速度,我相信它會很快,因?yàn)榇蠹乙呀?jīng)有很多準(zhǔn)備了,我也期待這個領(lǐng)域里更多將L2做得更好,甚至更高階的能實(shí)現(xiàn)。

楊植麟:我覺得它的意義確實(shí)是很大,主要意義在于它提升了AI的上限。AI的上限是說,你現(xiàn)在去提升5%、10%的生產(chǎn)力,還是說10倍的GDP,我覺得這里最重要的問題就是你能不能通過強(qiáng)化學(xué)習(xí)進(jìn)一步scaling,這是完全提升了AI上限的東西。我們?nèi)绻碅I歷史上七八十年的發(fā)展,唯一有效的就是scaling,唯一有效的就是加更多的算力。但在O1提出之前,可能也有很多人在研究強(qiáng)化學(xué)習(xí),但都沒有一個非常確切的答案,強(qiáng)化學(xué)習(xí)如果和大語言模型,或者和training processin這些東西整合在一起,它能否持續(xù)提升。比如GPT4這一代模型的提升,更多是確定性的提升,我在一樣范式下把規(guī)模變得更大,它肯定是確定性的提升。但是我覺得O1的提升并不是一個完全確定性的,這樣的提升。

所以在之前大家可能會擔(dān)心現(xiàn)在互聯(lián)網(wǎng)上大部分優(yōu)質(zhì)數(shù)據(jù)都已經(jīng)被使用完了,然后你可能繼續(xù)使用這個數(shù)據(jù)也沒有更多數(shù)據(jù)可以挖掘,所以你原來的范式可能會遇到問題。但AI有效了,你又需要進(jìn)一步scaling,那你這個scaling從哪里來,我覺得很大程度上解決了這個問題,或者說至少證明了它初步可行。初步可行的情況下,可能我們會有越來越多人投入去做這個事情,最終你要做到10倍GDP的最終效果,它完全有可能,我覺得是一個很重要的開端。

我覺得對很多產(chǎn)業(yè)格局上,或者對于創(chuàng)業(yè)公司新機(jī)會來說也會發(fā)生一些變化。比如我覺得這里很關(guān)鍵的一個點(diǎn),你的訓(xùn)練和推理算力占比是會發(fā)生很大的變化,這個變化我不是說訓(xùn)練的算力會下降,訓(xùn)練的算力還會持續(xù)提升。與此同時,推理的算力提升會更快,那這個比例的變化本質(zhì)上會產(chǎn)生很多新的機(jī)會,可能這里很多新的創(chuàng)業(yè)公司的機(jī)會。一方面,如果你達(dá)到一定的算力門檻,它可以在這里做很多算法的基礎(chǔ)創(chuàng)新,那你可以在基礎(chǔ)的模型上甚至取得突破,所以我覺得這個很重要。

對于算力相對小一點(diǎn)的公司,它也可以通過后訓(xùn)練的方式,在一些領(lǐng)域上做到一些效果,這里也會產(chǎn)生更多的產(chǎn)品和技術(shù)機(jī)會,所以我覺得整體也是打開了創(chuàng)業(yè)相關(guān)的想象空間。

主持人:這一波AI新的變化,接下來會對AI相關(guān)的產(chǎn)品帶來什么樣的連鎖反應(yīng),這個變化如何發(fā)生?

楊植麟:這是很好的問題,我們現(xiàn)在還是處于產(chǎn)業(yè)發(fā)展的早期。產(chǎn)業(yè)發(fā)展的早期有一個特點(diǎn),還是技術(shù)驅(qū)動產(chǎn)品會更多,所以很多時候你的產(chǎn)品會去看當(dāng)前的技術(shù)是怎么發(fā)展,然后把它最大化的價值提取出來,所以這個問題首先非常好,可能我們根據(jù)這個新的技術(shù)進(jìn)展,再返過來推一下現(xiàn)在產(chǎn)品應(yīng)該做什么變化。

現(xiàn)在的技術(shù)發(fā)展有幾個點(diǎn):

一個,我覺得這里面會有很多探索新的PMF(product market fit)的機(jī)會。我覺得PMF指的是兩個東西的平衡:一方面是由于你需要做這種系統(tǒng)2的思考,導(dǎo)致你的延時增加。對用戶來說,延時增加是一個負(fù)向的體驗(yàn),因?yàn)樗杏脩舳枷M冶M快能拿到結(jié)果;第二個點(diǎn),它確實(shí)能提供更好的輸出,能拿到更好的結(jié)果,甚至能完成一些跟更復(fù)雜的任務(wù)。等于說新的PMF產(chǎn)生的過程或者探索的過程,其實(shí)是要在在延時增長的用戶體驗(yàn)下降和最后結(jié)果產(chǎn)生質(zhì)量更高的用戶價值的上升之間找到一個平衡點(diǎn)。所以你要讓這個增量的價值是大于體驗(yàn)的損失,我覺得這個很重要。所以在這里面更高價值的場景,特別是生產(chǎn)力的場景,我覺得會率先有一些東西出來。因?yàn)槿绻闶且粋€娛樂場景,大概率你可能很難忍受這種延時上的增加。所以,我覺得這是比較重要的一點(diǎn)

產(chǎn)品形態(tài)上,我覺得也會發(fā)生一些變化。因?yàn)槟阋脒@種思考的范式,所以現(xiàn)在同步及時的類似聊天的產(chǎn)品形態(tài)一定會發(fā)生變化。因?yàn)橐院蟮腁I,可能它不光是現(xiàn)在思考個20秒、40秒,它已經(jīng)可能要思考或者調(diào)用各種工具,它可能執(zhí)行分鐘級別、小時級別甚至天級別的任務(wù),所以你的產(chǎn)品形態(tài)上可能會更接近一個人,它更接近“助理”的概念,幫你完成異步的任務(wù)。這里面的產(chǎn)品形態(tài)設(shè)計,我覺得可能也會發(fā)生很大的變化。所以這里面,我覺得新的想象空間蠻大的。

朱軍:我覺得大模型或者大規(guī)模預(yù)訓(xùn)練的技術(shù)代表著整個范式的變化,前面也聊到很多,不光是語言,到多模態(tài),到具身、空間智能,中間還是想我怎么去讓智能體能夠有交互,能夠在這個過程中來學(xué)習(xí)。從智能的角度來看,包括從AGI發(fā)展上,它是一個必然,因?yàn)闆Q策、交互實(shí)際上是我們說的智能里面非常核心的能力的體現(xiàn)。我們每時每刻其實(shí)都在做決策,我們面對的是一個未知的開放環(huán)境,所以對于智能來說,它的發(fā)展路徑上,在整個規(guī)劃里面大家也是朝著這個方向走。

現(xiàn)在所有這些進(jìn)展,包括剛剛討論很多的O1,包括做視頻生成,或者3D,這些東西大家最后要指向的有兩個方向:

一個是給消費(fèi)者看到的這些數(shù)字內(nèi)容,就是說看上去很好看、很自然,能夠講故事,能夠讓大家參與講故事、能夠交互。這肯定是一個很重要的方向,在數(shù)字內(nèi)容上。

另外一個方向,指向?qū)嶓w、指向物理世界。

現(xiàn)在可能最好的一個結(jié)合點(diǎn)就是和機(jī)器人來結(jié)合在一起。其實(shí)現(xiàn)在已經(jīng)有好多例子在展示出來,我們也看到很好的一些進(jìn)展,比如用了預(yù)訓(xùn)練的范式,如何讓機(jī)器人的能力具有通用性;比如我們自己實(shí)驗(yàn)室做多的例子,像四足機(jī)器人,過去大家在不同場地上,你要讓它跑起來都需要用很多的人工調(diào)參。但現(xiàn)在你在一個仿真環(huán)境里面,或者用一些AI的方式來生成一些合成數(shù)據(jù),讓它在里面大規(guī)模地訓(xùn)練,訓(xùn)練出來的策略可以灌到機(jī)器人上,它相當(dāng)于換了一副大腦,可以讓它的四肢更好地協(xié)同起來,同樣一套策略可以做各種場地的適應(yīng)。其實(shí)這還是一個初步的例子,現(xiàn)在大家也在關(guān)注更復(fù)雜的控制決策,就像空間智能、具身智能。

就像剛才講到智能體是AGI的L3,所以現(xiàn)在用到L1、L2的進(jìn)展之后,后面肯定會提升到L3,讓機(jī)器人更好地做它的推理規(guī)劃,然后更好更高效地和環(huán)境做交互,更好地完成我們的復(fù)雜任務(wù)。因?yàn)楝F(xiàn)在很多時候任務(wù)相對來說分散,給它定義成一個簡化的。未來,我們很快可以看到它可以接受復(fù)雜的指令、完成復(fù)雜的任務(wù),通過它內(nèi)嵌的思維鏈或者過程的學(xué)習(xí)方式,能夠完成復(fù)雜任務(wù)。所以到那個時候,智能的能力又有一個很巨大的提升。

主持人:雖然意料未來都很難,至少心里會有一個期待,比如在下一個18個月里,我們希望看到什么樣的進(jìn)展,在AGI的領(lǐng)域里?

朱軍:因?yàn)楝F(xiàn)在整個是一個加速,其實(shí)很多時候我們預(yù)測通常會過于保守。如果回到你的問題,我預(yù)想未來18個月可能比較令人興奮的一個進(jìn)展,我希望看到AGI的L3已經(jīng)基本上實(shí)現(xiàn)。至少在智能體,比如我們說的世界模型的創(chuàng)建生成、虛實(shí)融合,至少在一些特定場景下的決策能力的巨大的提升。其實(shí)它會利用我們今天講到的推理、感知等等。

因?yàn)槲仪耙欢螘r間領(lǐng)了一個任務(wù),就是對L4做專門的分析,就是到底我們?nèi)笔裁??做了L4的。其實(shí)最后調(diào)研或者是分析下來,你會發(fā)現(xiàn)如果我們要做科學(xué)發(fā)現(xiàn)或者做創(chuàng)新,它需要的那些能力,可能目前是散落在各個角落里面,當(dāng)然現(xiàn)在可能還缺一個系統(tǒng)怎么把這些東西集成在一起,給它做work。所以我覺得如果更激進(jìn)一點(diǎn),我甚至覺得未來18個月可能在L4上也會有顯著的進(jìn)展。當(dāng)然這里面我講的是嚴(yán)肅的科學(xué)發(fā)現(xiàn),其實(shí)L4還有一些創(chuàng)意的表達(dá)上,目前我們在某種意義上已經(jīng)達(dá)到了,比如說藝術(shù)創(chuàng)造、圖生視頻,一定程度上它已經(jīng)幫大家放大你的想象,或者讓你的想象可以具象化。所以,我對整個于是還是比較樂觀的,我覺得至少L3或者未來L4有一些苗子了。

到今年年底,希望將我們本來做的視頻模型能夠以更加高效、更可控的方式提供給大家。

我解釋一下高效和可控??煽?,比如你想表達(dá)一個故事,不是簡單地將一段話或者一個圖片給它動起來,我們是希望你可以連續(xù)地講,而且它不光是人的一致性,還包括物體等各種主題的一致性,還包括交互性;高效,它一方面解決對算力成本的考量,因?yàn)槟闳绻胍?wù)很多人,讓大家用的話,首先你成本要降下來,不然這個本身就是燒錢,一直賠錢。另外一個更重要的,還是從體驗(yàn)上。就使用者來說,因?yàn)樗氡磉_(dá)自己的創(chuàng)意,他可能需要多次和系統(tǒng)來交互,一方面是驗(yàn)證,另外一方面是啟發(fā),所以這個過程也需要你的模型系統(tǒng)能夠比較高效,比如說終極目標(biāo)達(dá)到實(shí)時,能夠讓大家快速嘗試。等到這個階段,我相信大家的用戶體驗(yàn),包括用戶量都會有一個巨大的提升,這是我們今年想重點(diǎn)突破的。當(dāng)然長遠(yuǎn)的話,可能明年18個月會走向?qū)嶓w的虛實(shí)融合的場景了。

楊植鱗:我覺得接下來最重要的,可能是開放性的強(qiáng)化學(xué)習(xí),比如說你在產(chǎn)品上跟用戶交互,在一個真實(shí)的環(huán)境里面完成任務(wù),然后自己去進(jìn)化。當(dāng)然,我覺得O1一定程度上說明這個方向有比之前更強(qiáng)的確定性,我覺得這個會是一個重要的里程碑,也是AGI路上現(xiàn)在僅甚唯一的一個重要問題了。所以,我覺得這個會很關(guān)鍵。

張鵬:對,18個月已經(jīng)是很長了,如果看看看過去18個月走的路。你未來3個月,有什么可以透露的嗎?

楊植鱗:我們還是希望能夠在產(chǎn)品和技術(shù)上持續(xù)地創(chuàng)新,至少可能在一兩個重要領(lǐng)域能夠做到世界最好,但是有新的進(jìn)展會盡快跟大家分享。

姜大昕:第一,我也很期待強(qiáng)化學(xué)習(xí)能夠進(jìn)一步泛化。另外一個方向其實(shí)我也很期待,應(yīng)該說期待了很久就是在視覺領(lǐng)域的理解和生成一體化的事情。因?yàn)樵谖淖诸I(lǐng)域,GPT已經(jīng)做到了理解生成一體化,但遺憾的是在視覺領(lǐng)域,這個問題當(dāng)然不是遺憾,它非常難。所以在目前為止,我們看到的視覺的理解和生成,這兩個模型是分開的。即使像剛才說的多模融合,如果大家仔細(xì)看GPT4,它其他模態(tài)都解決了,它唯獨(dú)不能生成視頻,所以這是一個懸而未決的事情。

它為什么很重要呢?如果我們解決了視頻理解生成一體化,我們就可以徹底建立一個多模的世界模型,有一個多模的世界模型以后,可以幫助我們真正產(chǎn)生非常長的視頻,也就是說解決Sora(音譯)目前的技術(shù)缺陷。還有一個,它可以和具身智能相結(jié)合,它可以作為機(jī)器人的大腦去幫助智能體更好地探索物理世界,所以我也是非常期待的。

張鵬:你未來年底之前,有什么我們值得期待的你的進(jìn)展?

姜大昕:我也是期待一方面模型和技術(shù)的進(jìn)步,另外一方面產(chǎn)品能帶給用戶更多更好的體驗(yàn),其實(shí)階躍有一款產(chǎn)品叫“躍問”,在上面,用戶可以體驗(yàn)我們最新的萬億參數(shù)的模型,它不光是理科很強(qiáng),而且它的文學(xué)創(chuàng)作能力也很強(qiáng),經(jīng)常給大家?guī)硪恍@喜。同時,躍問上還有一個新的功能叫“拍照問”,我們看到用戶經(jīng)常拍張照片去問食物的卡路里,去問寵物的心情,問一個文物的前世今生,包括Mata眼鏡的發(fā)布,還有Apple Intelligence,它今年都突出了視覺交互的功能。所以我們在躍問上也有體現(xiàn),而且我們會努力一步步把這個功能做得越來越好。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-09-20
階躍星辰姜大昕、月之暗面楊植麟、生數(shù)科技朱軍,云棲大會激辯“通往AGI的大模型發(fā)展之路”
2024年,AI 發(fā)展變慢了嗎?過去18個月,AGI的發(fā)展是加速還是減速?如何評價OpenAI 最新發(fā)布的 O1 模型?強(qiáng)化學(xué)習(xí)將改變什么?大模型時代的創(chuàng)業(yè)新范式是什么?

長按掃碼 閱讀全文