智象未來梅濤:生成式人工智能將變成基礎(chǔ)設(shè)施 擴散模型能力處于L2階段

7月6日消息 昨天,中國信息通信研究院承辦的WAIC 2024“邁向AGI:大模型煥新與產(chǎn)業(yè)賦能”論壇,于上海徐匯西岸拉開帷幕!本次論壇深度聚焦大模型產(chǎn)業(yè)應(yīng)用落地、端側(cè)智能、大模型安全與治理等前沿?zé)狳c話題,攜手全球AI領(lǐng)域頂級學(xué)者、行業(yè)領(lǐng)袖展開頂尖思維碰撞,共探大模型驅(qū)動新質(zhì)生產(chǎn)力發(fā)展的新潛能,為行業(yè)呈現(xiàn)一場精彩紛呈的科技盛宴。

加拿大工程院外籍院士、智象未來創(chuàng)始人兼CEO梅濤院士應(yīng)邀作了題為“大模型視覺多模態(tài)智能交互新界面”的主旨演講。

梅濤表示,生成式人工智能未來像水和電一樣會變成基礎(chǔ)設(shè)施。生成式AI能夠理解人的語言,改變?nèi)藱C交互的方式,產(chǎn)生通用人工智能的技術(shù)。如果人工智能能夠理解物理世界通過視覺建模可以改變AIGC和改變元宇宙,人工智能如果能做多模態(tài)的交互就會催生機器人。

梅濤指出,在通往AGI的道路上,現(xiàn)在有兩條技術(shù)路徑:第一條路線通過語言壓縮,通過GPT模型機制預(yù)測下一個單詞,從而再去理解人類的知識,預(yù)計2026年人類的知識就會被大語言模型所消耗掉。另外一條路線是擴散模型,它的技術(shù)框架跟GPT完全不一樣,它是從視覺的角度構(gòu)建對整個世界物理的模型?!澳壳盀橹?,這條曲線發(fā)展的邏輯會比GPT的曲線稍微慢一點,我們認(rèn)為現(xiàn)在的擴散模型的技術(shù)能力相當(dāng)于GPT2的能力,將來有一天這兩條曲線會融合在一起?!?/p>

梅濤表示,從整個的視頻生產(chǎn)來說,可以把視頻技術(shù)的成熟度分為五個階段,從L1到L5,從單鏡頭的視頻生成到未來多鏡頭、多故事性?!敖K局我們希望一篇小說扔給機器,機器就能夠做分鏡和鏡頭的生成,做IP的一致性,最后呈現(xiàn)一個完整的電視劇,我們認(rèn)為所有的技術(shù)目前還處于L2的階段?!?/p>

梅濤指出,一個技術(shù)到最后落地有很多因素要考慮,最重要的因素就是成本、效率、體驗。“成本端,1秒鐘的生成成本大概是在1元人民幣到1美金之間;效率端,輸出一個prompt,產(chǎn)生視頻渲染的時間可能是10幾秒甚至是1分鐘;體驗端,不管是做文字模型、視覺模型還是沒有從服務(wù)專業(yè)用戶到服務(wù)普通用戶,未來有很多的路要走。”

梅濤認(rèn)為,未來不可能是一個大模型解決所有的問題,一定是一個大模型結(jié)合所有的小模型Agent幫助實現(xiàn)用戶的需要。我們的策略是通過一個基礎(chǔ)大模型,通過文字對齊多模態(tài)模型,結(jié)合很多的產(chǎn)品應(yīng)用型的小模型服務(wù)千行百業(yè),包括智能終端、包括電子商務(wù)、文旅宣傳等等。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-07-06
智象未來梅濤:生成式人工智能將變成基礎(chǔ)設(shè)施 擴散模型能力處于L2階段
智象未來梅濤:生成式人工智能將變成基礎(chǔ)設(shè)施 擴散模型能力處于L2階段,C114訊 7月6日消息 昨天,中國信息通信研究院承辦的WAIC 2024“邁向AGI:大模型煥新與

長按掃碼 閱讀全文