階躍星辰姜大昕、月之暗面楊植麟、生數(shù)科技朱軍,云棲大會(huì)激辯“通往AGI的大模型發(fā)展之路”

9月20日消息,在2024云棲大會(huì)上,極客公園創(chuàng)始人、總裁 張鵬對(duì)話階躍星辰創(chuàng)始人、首席執(zhí)行官姜大昕,月之暗面Kimi創(chuàng)始人 楊植麟,清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技首席科學(xué)家朱軍,三人對(duì)AGI發(fā)展現(xiàn)狀和未來(lái)展望進(jìn)行了激烈討論和前瞻展望。

2024年,AI 發(fā)展變慢了嗎?過(guò)去18個(gè)月,AGI的發(fā)展是加速還是減速?如何評(píng)價(jià)OpenAI 最新發(fā)布的 O1 模型?強(qiáng)化學(xué)習(xí)將改變什么?大模型時(shí)代的創(chuàng)業(yè)新范式是什么?

姜大昕表示AI 技術(shù)發(fā)展加速, AI 發(fā)展正在經(jīng)歷關(guān)鍵的技術(shù)范式迭代: OpenAI 的大模型 o1 探索出了通過(guò)強(qiáng)化學(xué)習(xí)讓 AI 具備人類(lèi)慢思考(可主動(dòng)反思、糾錯(cuò)的復(fù)雜思考)能力的方式,接下來(lái)提升強(qiáng)化學(xué)習(xí)模型的泛化能力和加速推進(jìn)多模態(tài)理解生成一體化是 AI 技術(shù)進(jìn)一步突破的關(guān)鍵。階躍星辰積極探索新的技術(shù)范式,已經(jīng)在萬(wàn)億參數(shù)模型上實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)訓(xùn)練的方法論。同時(shí),持續(xù)打磨更高性能的底層大模型,提升C端產(chǎn)品體驗(yàn)。據(jù)他透露,近期階躍星辰自研的 Step-2 萬(wàn)億參數(shù) MoE 語(yǔ)言大模型已接入智能助手“躍問(wèn)”,展現(xiàn)出更強(qiáng)大的指令跟隨、創(chuàng)作和推理能力。

談到AI產(chǎn)品未來(lái)的可能形態(tài),楊植麟表示,以后的AI可能要思考或者調(diào)用各種工具,它可能執(zhí)行分鐘級(jí)別、小時(shí)級(jí)別甚至天級(jí)別的任務(wù),所以產(chǎn)品形態(tài)上可能會(huì)更接近一個(gè)人,它更接近“助理”的概念,幫你完成異步的任務(wù)。這里面的產(chǎn)品形態(tài)設(shè)計(jì)可能也會(huì)發(fā)生很大的變化,想象空間蠻大。

談到未來(lái)18個(gè)可能發(fā)生的事情,朱軍表示,預(yù)想未來(lái)18個(gè)月可能比較令人興奮的一個(gè)進(jìn)展,我希望看到AGI的L3已經(jīng)基本上實(shí)現(xiàn)。至少在智能體,比如我們說(shuō)的世界模型的創(chuàng)建生成、虛實(shí)融合,至少在一些特定場(chǎng)景下的決策能力的巨大的提升。其實(shí)它會(huì)利用我們今天講到的推理、感知等等。

以下為對(duì)話實(shí)錄摘錄:

主持人:從ChatGPT的發(fā)展,引發(fā)了整個(gè)世界對(duì)于AGI這個(gè)事情的理解,發(fā)展到現(xiàn)在也18個(gè)月了。各位的感受是怎么樣的,過(guò)去18個(gè)月,AGI的發(fā)展是加速還是減速?

姜大昕:我覺(jué)得過(guò)去18個(gè)月速度還是在加速的,速度還是非??斓?。因?yàn)楫?dāng)我們回顧過(guò)去18個(gè)月發(fā)生的大大小小的AI事件以后,可以從兩個(gè)維度去看,一個(gè)是數(shù)量的角度,一個(gè)是質(zhì)量的角度。

從數(shù)量的角度來(lái)看,還是每個(gè)月都會(huì)有新的模型、新的產(chǎn)品、新的應(yīng)用涌現(xiàn)出來(lái)。比如單從模型來(lái)看,OpenAI 2月份發(fā)了一個(gè)sora,我記得當(dāng)時(shí)還是過(guò)年的時(shí)候,把大家轟炸了一下。然后5月份出了一個(gè)GPT-4o,上周又出了o1。OpenAI的老對(duì)手Anthropic它有Claude3到Claude3.5的系列,再加上谷歌Gemini系列、Claude系列、LLaMA的系列,等等。

所以,回顧過(guò)去,我們的感覺(jué)還是GPT-4是一家獨(dú)大,遙遙領(lǐng)先。到了今年就變成了一個(gè)好像是群雄并起,你追我趕的局面,所以感覺(jué)各家是在提速了。

從質(zhì)量的角度來(lái)看,我覺(jué)得有三件事情可能給我的印象非常的深刻。

第一件事情,GPT-4O的發(fā)布。因?yàn)槲铱此?,認(rèn)為它是在多模融合這樣的一個(gè)領(lǐng)域上了一個(gè)新的臺(tái)階。在GPT4O之前,是有GPT4V,它是一個(gè)視覺(jué)的理解模型,有Dalle、Sora,這是視覺(jué)的生成模型。還有Whisper這是聲音模型。所以原本這些孤立的模型到了4O這里都融合在一起了。

那為什么融合這件事情非常的重要?是因?yàn)槲覀兊奈锢硎澜绫旧砭褪且粋€(gè)多模的世界,所以多模融合一定是有助于更好的去為我們的物理世界建模,去模擬世界這樣一件事情。

第二件事情,特斯拉發(fā)布的FSD V12。大家知道它是一個(gè)端到端的大模型,它把感知信號(hào)變成一個(gè)控制序列。智駕是一個(gè)非常有代表性的,它是一個(gè)從數(shù)字世界走向物理世界一個(gè)真實(shí)的應(yīng)用場(chǎng)景。所以,我覺(jué)得FSDV12它的成功,意義不僅在于智駕本身,這套方法論可以認(rèn)為是為將來(lái)的智能設(shè)備如何和大模型相結(jié)合,更好的去探索物理世界指明了一個(gè)方向。

第三件事情,上周的O1,我對(duì)它的理解,它第一次證明了語(yǔ)言模型其實(shí)也可以有人腦的慢思考,就是系統(tǒng)2的能力。而我們覺(jué)得系統(tǒng)2的能力它是歸納世界所必備的一個(gè)前提條件,是一個(gè)基礎(chǔ)的能力。所以,我們一直認(rèn)為,AGI的演進(jìn)路線可以分為模擬世界、探索世界、最后歸納世界。而過(guò)去幾個(gè)月的時(shí)間我們看到GPT4O、FSD V12和O1分別在這三個(gè)階段或者這三個(gè)方向上都取得了非常大的突破,而且更重要的是為將來(lái)的發(fā)展也指明了一個(gè)方向。所以無(wú)論是從數(shù)量還是質(zhì)量上來(lái)說(shuō),都是可圈可點(diǎn)。

楊植麟:我覺(jué)得整體也是屬于加速發(fā)展的階段,核心可以從兩個(gè)維度來(lái)看(AI的發(fā)展),第一個(gè)維度是縱向的維度,也就是說(shuō)你的智商是一直在提升的,這個(gè)主要現(xiàn)在的反應(yīng)方式還是你去看文本模型能做到多好。第二個(gè)是橫向的發(fā)展。除了文本模型之外,剛才姜總提到的,也會(huì)有各種不同的模態(tài),這些模態(tài)會(huì)做一個(gè)橫向的發(fā)展,更多的讓你這個(gè)模型具備更多的技能,能夠去完成更多的任務(wù),然后同時(shí)跟縱向的智商的發(fā)展相結(jié)合。

在這兩個(gè)維度上,我覺(jué)得都看到了非常大的進(jìn)展,比如說(shuō)在縱向的維度上,其實(shí)智商是一直在提升的,比如說(shuō)我們?nèi)绻タ锤?jìng)賽數(shù)學(xué)能力,去年是完全不及格,到今年已經(jīng)能做到90多分,像代碼基本上也是一樣,能夠擊敗很多專業(yè)的編程選手,包括因此也產(chǎn)生了很多新的應(yīng)用機(jī)會(huì),比如說(shuō)像現(xiàn)在比較流行的類(lèi)似curser這樣的,通過(guò)自然語(yǔ)言直接去寫(xiě)代碼的這樣的軟件也越來(lái)越普及,這是技術(shù)發(fā)展的結(jié)果。包括我們?nèi)タ春芏嗑唧w的技術(shù)指標(biāo),現(xiàn)在的語(yǔ)言模型能支持的上下文的長(zhǎng)度,我們?nèi)绻ツ赀@個(gè)時(shí)間點(diǎn)去看的話,大部分的模型都只能支持4K-8K的,但是從今天去看你會(huì)發(fā)現(xiàn)4K-8K已經(jīng)是非常低的數(shù)了,128K是一個(gè)標(biāo)配,已經(jīng)有很多可以支持1M甚至10M的長(zhǎng)文本的長(zhǎng)度。所以,它這個(gè)其實(shí)也是后面你的智商不斷提升的一個(gè)很重要的基礎(chǔ)。

包括最近的很多進(jìn)展,它不光只是說(shuō)Scaling,Scaling還是會(huì)持續(xù)。而且很多進(jìn)展也來(lái)自于你的后訓(xùn)練算法的優(yōu)化,來(lái)自于你數(shù)據(jù)的優(yōu)化,這些優(yōu)化它的周期是會(huì)更短的。所以,這個(gè)周期更短導(dǎo)致你整體AI發(fā)展節(jié)奏也會(huì)進(jìn)一步加快,包括我們最近在數(shù)學(xué)上看到的很多進(jìn)展,其實(shí)也是得益于這些技術(shù)的發(fā)展。

橫向上當(dāng)然也產(chǎn)生了很多新的突破,當(dāng)然Sora可能是影響力最大的,在這里面完成了這個(gè)視頻生成。包括最近有特別多新的產(chǎn)品和技術(shù)出來(lái),現(xiàn)在你已經(jīng)可以通過(guò)一個(gè)論文直接生成基本上你看不出來(lái)是真是假的雙人的對(duì)話。類(lèi)似這樣的不同模態(tài)之間的轉(zhuǎn)化、交互和生成,其實(shí)會(huì)變的越來(lái)越成熟。所以,我覺(jué)得整體是在加速的過(guò)程中。

朱軍:AGI這里面大家最關(guān)注的還是大模型,剛才兩位也講了去年包括今年大模型也發(fā)生了很多重要的變化。整個(gè)的進(jìn)展我是非常同意剛才講到的,在加快。

另外,我想補(bǔ)充一點(diǎn),大家在解新的問(wèn)題,這個(gè)速度也在加快了,我們說(shuō)它的Leaning corve在變的更陡。原來(lái)如果你看語(yǔ)言模型,可能從2018年最早去做的,到去年以及到今年,大家走了五六年的路。但其實(shí)從去年開(kāi)始,上半年大家還是關(guān)注語(yǔ)言模型,下半年在討論多模態(tài),從多模態(tài)理解再到多模態(tài)生成。我們?cè)倩剡^(guò)頭看的話,比如說(shuō)圖像或者視頻,其實(shí)視頻最明顯,從今年的2月份,當(dāng)時(shí)很多人被震驚到了,因?yàn)樗芏鄾](méi)有公開(kāi),就說(shuō)怎么去突破?有很多的討論。但事實(shí)上我們現(xiàn)在看到這個(gè)行業(yè)里面,大概用了半年的時(shí)間,已經(jīng)做到了可以去用,而且達(dá)到了一個(gè)很好的一些效果,在時(shí)空一致性上。所以大概走了半年的路。

所以這里面加速的一個(gè)最核心的原因,現(xiàn)在大家對(duì)這種路線的認(rèn)知和準(zhǔn)備上,達(dá)到了比較好的程度。當(dāng)然我們還有物理的條件,比如說(shuō)像云的設(shè)施,計(jì)算的資源的準(zhǔn)備上,不像ChatGPT當(dāng)時(shí)出來(lái)的時(shí)候,大家當(dāng)時(shí)更多的是一種不知所措,我覺(jué)得很多人可能沒(méi)準(zhǔn)備好去接受這個(gè),所以中間去花了很長(zhǎng)時(shí)間去學(xué)習(xí)、去掌握這個(gè)。當(dāng)我們掌握了之后再發(fā)現(xiàn)這個(gè)進(jìn)展的話,再去做新的問(wèn)題,其實(shí)它的速度是越來(lái)越快的。

當(dāng)然,這個(gè)可能不同的能力它再輻射到實(shí)際的用戶的角度來(lái)說(shuō),有一些快慢之分,當(dāng)然也分行業(yè)。這個(gè)可能在廣泛的角度來(lái)說(shuō),大家可能沒(méi)感知到。但是從技術(shù)來(lái)說(shuō),其實(shí)這個(gè)進(jìn)展我感覺(jué)是曲線越來(lái)越陡,而且可能對(duì)后邊我們要預(yù)測(cè)未來(lái)的話,包括向更高階的AGI發(fā)展,我是比較樂(lè)觀的,可能會(huì)看到比之前更快的速度去實(shí)現(xiàn)了。

主持人:最近OpenAI剛剛出的O1的新的模型,也是在專業(yè)人群里形成了非常多的影響,現(xiàn)在還在很豐富的討論。怎么評(píng)價(jià)O1進(jìn)展的意義?

姜大昕:確實(shí)我看到一些非共識(shí),有些人覺(jué)得意義很大,有些人覺(jué)得也不過(guò)如此。我覺(jué)得大家如果去試用O1的話,可能第一印象是它的推理能力確實(shí)非常驚艷,我們自己試了很多Query,覺(jué)得推理能力確實(shí)上了一個(gè)很大的臺(tái)階。

然后我們?nèi)ニ伎妓澈蟮囊饬x究竟是什么,我能想到的有兩點(diǎn):1.它第一次證明了Large language model,就是語(yǔ)言模型,它可以有人腦的慢思考的能力。它和以前GPT的范式,或者GPT的訓(xùn)練,它叫,Predict next Token,它只要這樣訓(xùn)練了,就注定了它只有system 1的能力。而O1是用了一個(gè)強(qiáng)化學(xué)習(xí)的訓(xùn)練框架,所以帶來(lái)了系統(tǒng)2的能力。

系統(tǒng)1的體現(xiàn),它是一個(gè)直線性思維,雖然我們看到GPT4有時(shí)候可以把一個(gè)復(fù)雜的問(wèn)題拆解成很多步,然后分步去解決,但它還是直線性的。系統(tǒng)1和系統(tǒng)2最大的區(qū)別在于,系統(tǒng)2能夠去探索不同的路徑,它能夠自我去反思、自我去糾錯(cuò),然后不斷的試錯(cuò),直到找到一個(gè)正確的途徑,這是系統(tǒng)2的特點(diǎn)。這次O1,它是把以前的模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來(lái)了,使得一個(gè)模型同時(shí)有了人腦系統(tǒng)1和系統(tǒng)2的能力。所以我覺(jué)得從這個(gè)角度來(lái)看,它的意義是非常大的。

第二,它帶來(lái)了一個(gè)Scaling Law的新方向,我理解O1試圖回答的一個(gè)問(wèn)題,就是說(shuō)RL(強(qiáng)化學(xué)習(xí))究竟怎么去泛化。因?yàn)閺?qiáng)化學(xué)習(xí)它不是第一個(gè),DeepMind一直走的是強(qiáng)化學(xué)習(xí)的路線,從AlphaGo到AlphaFold到AlphaGeometry,其實(shí)它在強(qiáng)化學(xué)習(xí)上是非常厲害的。但以前強(qiáng)化學(xué)習(xí)的場(chǎng)景都是會(huì)為特定場(chǎng)景去設(shè)計(jì),AlphaGo只能下圍棋,AlphaFold只能去預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。所以這次O1的出現(xiàn),它是在RL強(qiáng)化學(xué)習(xí)通用性和泛化性上了一個(gè)大的臺(tái)階,而且它scale到了一個(gè)很大的規(guī)模,所以我把它看成scaling帶來(lái)新的技術(shù)范式,我們不妨稱之為RL Scaling。而且我們看到有意思的一點(diǎn),O1并沒(méi)有到很成熟的階段,它還是一個(gè)開(kāi)端,但是這個(gè)恰恰讓人覺(jué)得非常的興奮,這就等于OpenAI跟我們說(shuō),我找到了一條上限很高的道路,而且你仔細(xì)去思考它背后的方法,你會(huì)相信這條路實(shí)際上是能走得下去。所以O(shè)1從能力上來(lái)講,我覺(jué)得它展示了Language model可以有系統(tǒng)2的能力,從技術(shù)上來(lái)說(shuō)它帶來(lái)新的scaling范式,所以它的意義還是非常大的。

朱軍:我的看法,它是代表著一個(gè)顯著的質(zhì)變。我們也對(duì)AGI大概做了一些分級(jí),學(xué)術(shù)界,包括產(chǎn)業(yè)界大家有L1-L5的分級(jí)。其實(shí)L1的話相當(dāng)于聊天機(jī)器人,就是像ChatGPT等,之前大家做了很多對(duì)話的。L2叫推理者,實(shí)際上可以做復(fù)雜問(wèn)題深度思考的推理。L3叫智能體,回應(yīng)吳總講的“數(shù)字世界”走向“物理世界”,我要去改變的,我要去交互的。L4是創(chuàng)新者,它要去發(fā)現(xiàn)、創(chuàng)造一些新的東西,或者發(fā)現(xiàn)一些新的知識(shí)。L5是組織者,它可以去協(xié)同,或者某種組織方式更高效來(lái)運(yùn)轉(zhuǎn),這是大家對(duì)于AGI L1-L5的分級(jí),當(dāng)然每一級(jí)也有narrow和general的區(qū)分,在某些Task上展示出來(lái)。比如O1在L2的narrow場(chǎng)景下,在一些特定任務(wù)下已經(jīng)實(shí)現(xiàn)了人類(lèi)達(dá)到很高階的智能水平。我覺(jué)得從分級(jí)角度來(lái)看,它確實(shí)代表著整個(gè)行業(yè)巨大的進(jìn)步。
剛才技術(shù)上姜總也講了,它將過(guò)去強(qiáng)化學(xué)習(xí)或者其他一些技術(shù),其實(shí)在研究里已經(jīng)做了很多東西,但實(shí)際上它在大規(guī)?;P蜕夏軌蜃龀鰜?lái)的效果,這還是從工程上,或者從實(shí)現(xiàn)上來(lái)說(shuō)對(duì)行業(yè)很大的觸動(dòng)。當(dāng)然它也會(huì)錯(cuò)發(fā)或者激發(fā)出來(lái)很多未來(lái)的探索,或者實(shí)際的研發(fā),可能會(huì)走向從narrow到general的躍遷。剛才講到速度,我相信它會(huì)很快,因?yàn)榇蠹乙呀?jīng)有很多準(zhǔn)備了,我也期待這個(gè)領(lǐng)域里更多將L2做得更好,甚至更高階的能實(shí)現(xiàn)。

楊植麟:我覺(jué)得它的意義確實(shí)是很大,主要意義在于它提升了AI的上限。AI的上限是說(shuō),你現(xiàn)在去提升5%、10%的生產(chǎn)力,還是說(shuō)10倍的GDP,我覺(jué)得這里最重要的問(wèn)題就是你能不能通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步scaling,這是完全提升了AI上限的東西。我們?nèi)绻碅I歷史上七八十年的發(fā)展,唯一有效的就是scaling,唯一有效的就是加更多的算力。但在O1提出之前,可能也有很多人在研究強(qiáng)化學(xué)習(xí),但都沒(méi)有一個(gè)非常確切的答案,強(qiáng)化學(xué)習(xí)如果和大語(yǔ)言模型,或者和training processin這些東西整合在一起,它能否持續(xù)提升。比如GPT4這一代模型的提升,更多是確定性的提升,我在一樣范式下把規(guī)模變得更大,它肯定是確定性的提升。但是我覺(jué)得O1的提升并不是一個(gè)完全確定性的,這樣的提升。

所以在之前大家可能會(huì)擔(dān)心現(xiàn)在互聯(lián)網(wǎng)上大部分優(yōu)質(zhì)數(shù)據(jù)都已經(jīng)被使用完了,然后你可能繼續(xù)使用這個(gè)數(shù)據(jù)也沒(méi)有更多數(shù)據(jù)可以挖掘,所以你原來(lái)的范式可能會(huì)遇到問(wèn)題。但AI有效了,你又需要進(jìn)一步scaling,那你這個(gè)scaling從哪里來(lái),我覺(jué)得很大程度上解決了這個(gè)問(wèn)題,或者說(shuō)至少證明了它初步可行。初步可行的情況下,可能我們會(huì)有越來(lái)越多人投入去做這個(gè)事情,最終你要做到10倍GDP的最終效果,它完全有可能,我覺(jué)得是一個(gè)很重要的開(kāi)端。

我覺(jué)得對(duì)很多產(chǎn)業(yè)格局上,或者對(duì)于創(chuàng)業(yè)公司新機(jī)會(huì)來(lái)說(shuō)也會(huì)發(fā)生一些變化。比如我覺(jué)得這里很關(guān)鍵的一個(gè)點(diǎn),你的訓(xùn)練和推理算力占比是會(huì)發(fā)生很大的變化,這個(gè)變化我不是說(shuō)訓(xùn)練的算力會(huì)下降,訓(xùn)練的算力還會(huì)持續(xù)提升。與此同時(shí),推理的算力提升會(huì)更快,那這個(gè)比例的變化本質(zhì)上會(huì)產(chǎn)生很多新的機(jī)會(huì),可能這里很多新的創(chuàng)業(yè)公司的機(jī)會(huì)。一方面,如果你達(dá)到一定的算力門(mén)檻,它可以在這里做很多算法的基礎(chǔ)創(chuàng)新,那你可以在基礎(chǔ)的模型上甚至取得突破,所以我覺(jué)得這個(gè)很重要。

對(duì)于算力相對(duì)小一點(diǎn)的公司,它也可以通過(guò)后訓(xùn)練的方式,在一些領(lǐng)域上做到一些效果,這里也會(huì)產(chǎn)生更多的產(chǎn)品和技術(shù)機(jī)會(huì),所以我覺(jué)得整體也是打開(kāi)了創(chuàng)業(yè)相關(guān)的想象空間。

主持人:這一波AI新的變化,接下來(lái)會(huì)對(duì)AI相關(guān)的產(chǎn)品帶來(lái)什么樣的連鎖反應(yīng),這個(gè)變化如何發(fā)生?

楊植麟:這是很好的問(wèn)題,我們現(xiàn)在還是處于產(chǎn)業(yè)發(fā)展的早期。產(chǎn)業(yè)發(fā)展的早期有一個(gè)特點(diǎn),還是技術(shù)驅(qū)動(dòng)產(chǎn)品會(huì)更多,所以很多時(shí)候你的產(chǎn)品會(huì)去看當(dāng)前的技術(shù)是怎么發(fā)展,然后把它最大化的價(jià)值提取出來(lái),所以這個(gè)問(wèn)題首先非常好,可能我們根據(jù)這個(gè)新的技術(shù)進(jìn)展,再返過(guò)來(lái)推一下現(xiàn)在產(chǎn)品應(yīng)該做什么變化。

現(xiàn)在的技術(shù)發(fā)展有幾個(gè)點(diǎn):

一個(gè),我覺(jué)得這里面會(huì)有很多探索新的PMF(product market fit)的機(jī)會(huì)。我覺(jué)得PMF指的是兩個(gè)東西的平衡:一方面是由于你需要做這種系統(tǒng)2的思考,導(dǎo)致你的延時(shí)增加。對(duì)用戶來(lái)說(shuō),延時(shí)增加是一個(gè)負(fù)向的體驗(yàn),因?yàn)樗杏脩舳枷M冶M快能拿到結(jié)果;第二個(gè)點(diǎn),它確實(shí)能提供更好的輸出,能拿到更好的結(jié)果,甚至能完成一些跟更復(fù)雜的任務(wù)。等于說(shuō)新的PMF產(chǎn)生的過(guò)程或者探索的過(guò)程,其實(shí)是要在在延時(shí)增長(zhǎng)的用戶體驗(yàn)下降和最后結(jié)果產(chǎn)生質(zhì)量更高的用戶價(jià)值的上升之間找到一個(gè)平衡點(diǎn)。所以你要讓這個(gè)增量的價(jià)值是大于體驗(yàn)的損失,我覺(jué)得這個(gè)很重要。所以在這里面更高價(jià)值的場(chǎng)景,特別是生產(chǎn)力的場(chǎng)景,我覺(jué)得會(huì)率先有一些東西出來(lái)。因?yàn)槿绻闶且粋€(gè)娛樂(lè)場(chǎng)景,大概率你可能很難忍受這種延時(shí)上的增加。所以,我覺(jué)得這是比較重要的一點(diǎn)

產(chǎn)品形態(tài)上,我覺(jué)得也會(huì)發(fā)生一些變化。因?yàn)槟阋脒@種思考的范式,所以現(xiàn)在同步及時(shí)的類(lèi)似聊天的產(chǎn)品形態(tài)一定會(huì)發(fā)生變化。因?yàn)橐院蟮腁I,可能它不光是現(xiàn)在思考個(gè)20秒、40秒,它已經(jīng)可能要思考或者調(diào)用各種工具,它可能執(zhí)行分鐘級(jí)別、小時(shí)級(jí)別甚至天級(jí)別的任務(wù),所以你的產(chǎn)品形態(tài)上可能會(huì)更接近一個(gè)人,它更接近“助理”的概念,幫你完成異步的任務(wù)。這里面的產(chǎn)品形態(tài)設(shè)計(jì),我覺(jué)得可能也會(huì)發(fā)生很大的變化。所以這里面,我覺(jué)得新的想象空間蠻大的。

朱軍:我覺(jué)得大模型或者大規(guī)模預(yù)訓(xùn)練的技術(shù)代表著整個(gè)范式的變化,前面也聊到很多,不光是語(yǔ)言,到多模態(tài),到具身、空間智能,中間還是想我怎么去讓智能體能夠有交互,能夠在這個(gè)過(guò)程中來(lái)學(xué)習(xí)。從智能的角度來(lái)看,包括從AGI發(fā)展上,它是一個(gè)必然,因?yàn)闆Q策、交互實(shí)際上是我們說(shuō)的智能里面非常核心的能力的體現(xiàn)。我們每時(shí)每刻其實(shí)都在做決策,我們面對(duì)的是一個(gè)未知的開(kāi)放環(huán)境,所以對(duì)于智能來(lái)說(shuō),它的發(fā)展路徑上,在整個(gè)規(guī)劃里面大家也是朝著這個(gè)方向走。

現(xiàn)在所有這些進(jìn)展,包括剛剛討論很多的O1,包括做視頻生成,或者3D,這些東西大家最后要指向的有兩個(gè)方向:

一個(gè)是給消費(fèi)者看到的這些數(shù)字內(nèi)容,就是說(shuō)看上去很好看、很自然,能夠講故事,能夠讓大家參與講故事、能夠交互。這肯定是一個(gè)很重要的方向,在數(shù)字內(nèi)容上。

另外一個(gè)方向,指向?qū)嶓w、指向物理世界。

現(xiàn)在可能最好的一個(gè)結(jié)合點(diǎn)就是和機(jī)器人來(lái)結(jié)合在一起。其實(shí)現(xiàn)在已經(jīng)有好多例子在展示出來(lái),我們也看到很好的一些進(jìn)展,比如用了預(yù)訓(xùn)練的范式,如何讓機(jī)器人的能力具有通用性;比如我們自己實(shí)驗(yàn)室做多的例子,像四足機(jī)器人,過(guò)去大家在不同場(chǎng)地上,你要讓它跑起來(lái)都需要用很多的人工調(diào)參。但現(xiàn)在你在一個(gè)仿真環(huán)境里面,或者用一些AI的方式來(lái)生成一些合成數(shù)據(jù),讓它在里面大規(guī)模地訓(xùn)練,訓(xùn)練出來(lái)的策略可以灌到機(jī)器人上,它相當(dāng)于換了一副大腦,可以讓它的四肢更好地協(xié)同起來(lái),同樣一套策略可以做各種場(chǎng)地的適應(yīng)。其實(shí)這還是一個(gè)初步的例子,現(xiàn)在大家也在關(guān)注更復(fù)雜的控制決策,就像空間智能、具身智能。

就像剛才講到智能體是AGI的L3,所以現(xiàn)在用到L1、L2的進(jìn)展之后,后面肯定會(huì)提升到L3,讓機(jī)器人更好地做它的推理規(guī)劃,然后更好更高效地和環(huán)境做交互,更好地完成我們的復(fù)雜任務(wù)。因?yàn)楝F(xiàn)在很多時(shí)候任務(wù)相對(duì)來(lái)說(shuō)分散,給它定義成一個(gè)簡(jiǎn)化的。未來(lái),我們很快可以看到它可以接受復(fù)雜的指令、完成復(fù)雜的任務(wù),通過(guò)它內(nèi)嵌的思維鏈或者過(guò)程的學(xué)習(xí)方式,能夠完成復(fù)雜任務(wù)。所以到那個(gè)時(shí)候,智能的能力又有一個(gè)很巨大的提升。

主持人:雖然意料未來(lái)都很難,至少心里會(huì)有一個(gè)期待,比如在下一個(gè)18個(gè)月里,我們希望看到什么樣的進(jìn)展,在AGI的領(lǐng)域里?

朱軍:因?yàn)楝F(xiàn)在整個(gè)是一個(gè)加速,其實(shí)很多時(shí)候我們預(yù)測(cè)通常會(huì)過(guò)于保守。如果回到你的問(wèn)題,我預(yù)想未來(lái)18個(gè)月可能比較令人興奮的一個(gè)進(jìn)展,我希望看到AGI的L3已經(jīng)基本上實(shí)現(xiàn)。至少在智能體,比如我們說(shuō)的世界模型的創(chuàng)建生成、虛實(shí)融合,至少在一些特定場(chǎng)景下的決策能力的巨大的提升。其實(shí)它會(huì)利用我們今天講到的推理、感知等等。

因?yàn)槲仪耙欢螘r(shí)間領(lǐng)了一個(gè)任務(wù),就是對(duì)L4做專門(mén)的分析,就是到底我們?nèi)笔裁??做了L4的。其實(shí)最后調(diào)研或者是分析下來(lái),你會(huì)發(fā)現(xiàn)如果我們要做科學(xué)發(fā)現(xiàn)或者做創(chuàng)新,它需要的那些能力,可能目前是散落在各個(gè)角落里面,當(dāng)然現(xiàn)在可能還缺一個(gè)系統(tǒng)怎么把這些東西集成在一起,給它做work。所以我覺(jué)得如果更激進(jìn)一點(diǎn),我甚至覺(jué)得未來(lái)18個(gè)月可能在L4上也會(huì)有顯著的進(jìn)展。當(dāng)然這里面我講的是嚴(yán)肅的科學(xué)發(fā)現(xiàn),其實(shí)L4還有一些創(chuàng)意的表達(dá)上,目前我們?cè)谀撤N意義上已經(jīng)達(dá)到了,比如說(shuō)藝術(shù)創(chuàng)造、圖生視頻,一定程度上它已經(jīng)幫大家放大你的想象,或者讓你的想象可以具象化。所以,我對(duì)整個(gè)于是還是比較樂(lè)觀的,我覺(jué)得至少L3或者未來(lái)L4有一些苗子了。

到今年年底,希望將我們本來(lái)做的視頻模型能夠以更加高效、更可控的方式提供給大家。

我解釋一下高效和可控。可控,比如你想表達(dá)一個(gè)故事,不是簡(jiǎn)單地將一段話或者一個(gè)圖片給它動(dòng)起來(lái),我們是希望你可以連續(xù)地講,而且它不光是人的一致性,還包括物體等各種主題的一致性,還包括交互性;高效,它一方面解決對(duì)算力成本的考量,因?yàn)槟闳绻胍?wù)很多人,讓大家用的話,首先你成本要降下來(lái),不然這個(gè)本身就是燒錢(qián),一直賠錢(qián)。另外一個(gè)更重要的,還是從體驗(yàn)上。就使用者來(lái)說(shuō),因?yàn)樗氡磉_(dá)自己的創(chuàng)意,他可能需要多次和系統(tǒng)來(lái)交互,一方面是驗(yàn)證,另外一方面是啟發(fā),所以這個(gè)過(guò)程也需要你的模型系統(tǒng)能夠比較高效,比如說(shuō)終極目標(biāo)達(dá)到實(shí)時(shí),能夠讓大家快速嘗試。等到這個(gè)階段,我相信大家的用戶體驗(yàn),包括用戶量都會(huì)有一個(gè)巨大的提升,這是我們今年想重點(diǎn)突破的。當(dāng)然長(zhǎng)遠(yuǎn)的話,可能明年18個(gè)月會(huì)走向?qū)嶓w的虛實(shí)融合的場(chǎng)景了。

楊植鱗:我覺(jué)得接下來(lái)最重要的,可能是開(kāi)放性的強(qiáng)化學(xué)習(xí),比如說(shuō)你在產(chǎn)品上跟用戶交互,在一個(gè)真實(shí)的環(huán)境里面完成任務(wù),然后自己去進(jìn)化。當(dāng)然,我覺(jué)得O1一定程度上說(shuō)明這個(gè)方向有比之前更強(qiáng)的確定性,我覺(jué)得這個(gè)會(huì)是一個(gè)重要的里程碑,也是AGI路上現(xiàn)在僅甚唯一的一個(gè)重要問(wèn)題了。所以,我覺(jué)得這個(gè)會(huì)很關(guān)鍵。

張鵬:對(duì),18個(gè)月已經(jīng)是很長(zhǎng)了,如果看看看過(guò)去18個(gè)月走的路。你未來(lái)3個(gè)月,有什么可以透露的嗎?

楊植鱗:我們還是希望能夠在產(chǎn)品和技術(shù)上持續(xù)地創(chuàng)新,至少可能在一兩個(gè)重要領(lǐng)域能夠做到世界最好,但是有新的進(jìn)展會(huì)盡快跟大家分享。

姜大昕:第一,我也很期待強(qiáng)化學(xué)習(xí)能夠進(jìn)一步泛化。另外一個(gè)方向其實(shí)我也很期待,應(yīng)該說(shuō)期待了很久就是在視覺(jué)領(lǐng)域的理解和生成一體化的事情。因?yàn)樵谖淖诸I(lǐng)域,GPT已經(jīng)做到了理解生成一體化,但遺憾的是在視覺(jué)領(lǐng)域,這個(gè)問(wèn)題當(dāng)然不是遺憾,它非常難。所以在目前為止,我們看到的視覺(jué)的理解和生成,這兩個(gè)模型是分開(kāi)的。即使像剛才說(shuō)的多模融合,如果大家仔細(xì)看GPT4,它其他模態(tài)都解決了,它唯獨(dú)不能生成視頻,所以這是一個(gè)懸而未決的事情。

它為什么很重要呢?如果我們解決了視頻理解生成一體化,我們就可以徹底建立一個(gè)多模的世界模型,有一個(gè)多模的世界模型以后,可以幫助我們真正產(chǎn)生非常長(zhǎng)的視頻,也就是說(shuō)解決Sora(音譯)目前的技術(shù)缺陷。還有一個(gè),它可以和具身智能相結(jié)合,它可以作為機(jī)器人的大腦去幫助智能體更好地探索物理世界,所以我也是非常期待的。

張鵬:你未來(lái)年底之前,有什么我們值得期待的你的進(jìn)展?

姜大昕:我也是期待一方面模型和技術(shù)的進(jìn)步,另外一方面產(chǎn)品能帶給用戶更多更好的體驗(yàn),其實(shí)階躍有一款產(chǎn)品叫“躍問(wèn)”,在上面,用戶可以體驗(yàn)我們最新的萬(wàn)億參數(shù)的模型,它不光是理科很強(qiáng),而且它的文學(xué)創(chuàng)作能力也很強(qiáng),經(jīng)常給大家?guī)?lái)一些驚喜。同時(shí),躍問(wèn)上還有一個(gè)新的功能叫“拍照問(wèn)”,我們看到用戶經(jīng)常拍張照片去問(wèn)食物的卡路里,去問(wèn)寵物的心情,問(wèn)一個(gè)文物的前世今生,包括Mata眼鏡的發(fā)布,還有Apple Intelligence,它今年都突出了視覺(jué)交互的功能。所以我們?cè)谲S問(wèn)上也有體現(xiàn),而且我們會(huì)努力一步步把這個(gè)功能做得越來(lái)越好。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2024-09-20
階躍星辰姜大昕、月之暗面楊植麟、生數(shù)科技朱軍,云棲大會(huì)激辯“通往AGI的大模型發(fā)展之路”
2024年,AI 發(fā)展變慢了嗎?過(guò)去18個(gè)月,AGI的發(fā)展是加速還是減速?如何評(píng)價(jià)OpenAI 最新發(fā)布的 O1 模型?強(qiáng)化學(xué)習(xí)將改變什么?大模型時(shí)代的創(chuàng)業(yè)新范

長(zhǎng)按掃碼 閱讀全文