編劇、繪畫(huà)、后期剪輯AI全能干 百度吳華:熟練掌握AIGC讓創(chuàng)造更高效

1月5日消息,2022年以來(lái),隨著谷歌、百度、Meta、微軟等國(guó)內(nèi)外企業(yè)先后推出自己的AI繪畫(huà)模型或者平臺(tái),AIGC這一新型內(nèi)容創(chuàng)作形式,獲得了越來(lái)越多的關(guān)注。

在今年7月的百度世界大會(huì)上,百度創(chuàng)始人李彥宏曾表示:“AIGC或許將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式,實(shí)現(xiàn)以‘十分之一的成本’,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容。”

事實(shí)上,百度正通過(guò)AI大模型的能力,來(lái)實(shí)現(xiàn)李彥宏暢想的這一圖景。

在今天的百度“AIGC智能創(chuàng)作新風(fēng)尚”媒體溝通會(huì)上,百度技術(shù)委員會(huì)主席吳華就分享了百度AIGC內(nèi)容生成能力背后的技術(shù)原理,并針對(duì)目前火熱的“智能創(chuàng)作”介紹了百度打造的三位能力超群的“天才創(chuàng)作者”。


百度技術(shù)委員會(huì)主席 吳華

吳華指出,熟練掌握AIGC,創(chuàng)作者將能夠更加輕松、高效、快樂(lè)地創(chuàng)作,甚至一個(gè)人就可以完成編劇、美術(shù)創(chuàng)作及后期剪輯等內(nèi)容創(chuàng)作全流程工作,成為天才創(chuàng)作者。

吳華眼中這三位能力超群的百度“天才創(chuàng)作者”都身懷哪些絕技呢?作為人類(lèi)創(chuàng)作者,要如何借助“天才”的能力,來(lái)豐富、提效自身創(chuàng)作?

天才編劇:文心 ERNIE 3.0 Zeus

2022年5月,百度發(fā)布了融合任務(wù)相關(guān)知識(shí)的千億大模型ERNIE 3.0 Zeus。該模型能夠從豐富多樣的無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí),同時(shí)在學(xué)習(xí)過(guò)程中融入知識(shí)圖譜指導(dǎo)模型學(xué)習(xí)世界知識(shí)和語(yǔ)言知識(shí),進(jìn)而提升學(xué)習(xí)的效率。此外,該模型還能從摘要、對(duì)聯(lián)、翻譯、分類(lèi)、閱讀理解等百余種不同形式的任務(wù)中學(xué)習(xí)知識(shí),通過(guò)對(duì)通用知識(shí)和專(zhuān)門(mén)知識(shí)的學(xué)習(xí)來(lái)提升模型泛化能力,使得ERNIE 3.0 Zeus能夠做到多種語(yǔ)言理解和生成任務(wù),成為名副其實(shí)的“通才”。

例如,輸入一篇論文,ERNIE 3.0 Zeus可以立刻自動(dòng)生成摘要;輸入一個(gè)題目,它可以瞬間寫(xiě)出上百篇作文,而且作文還可以結(jié)合語(yǔ)境,寫(xiě)出不同的風(fēng)格,甚至是諸如詩(shī)歌、小說(shuō)等不同的體裁內(nèi)容。

同樣的,ERNIE 3.0 Zeus也會(huì)寫(xiě)劇本。

吳華指出,很多電視劇的劇本并不是由一位編劇單獨(dú)完成的,而是由一位總編劇制定總綱,再制定每一集的大概內(nèi)容,再交給多位編劇分別寫(xiě)每集的具體對(duì)話(huà)、詳細(xì)故事。因此,如果一個(gè)人能編制一部電視劇的總綱,他便可以把每一集的要求交給ERNIE 3.0 Zeus生成故事,然后再經(jīng)過(guò)合并整理最終寫(xiě)出整部劇。

吳華介紹,文心 ERNIE 3.0 系列模型已經(jīng)在幾十類(lèi)自然語(yǔ)言理解和生成公開(kāi)權(quán)威任務(wù),以及零樣本、小樣本學(xué)習(xí)任務(wù)上處于世界領(lǐng)先水平。此外,它還發(fā)布了業(yè)界首個(gè)開(kāi)放的千億參數(shù)中文生成API,供各行各業(yè)開(kāi)發(fā)者到文心大模型官網(wǎng)上調(diào)用、學(xué)習(xí)。

目前,普通用戶(hù)可以通過(guò)百度飛槳旸谷社區(qū)在線(xiàn)體驗(yàn) ERNIE 3.0 Zeus 的文本理解和文本創(chuàng)作能力,同時(shí),ERNIE 3.0 Zeus 也提供 API 體驗(yàn)調(diào)用入口,供開(kāi)發(fā)者使用。

天才畫(huà)師:文心 ERNIE-ViLG 2.0

在編劇的工作完成后,場(chǎng)景和畫(huà)面的美術(shù)創(chuàng)作,以及視頻內(nèi)容的產(chǎn)出和后期剪輯,是影視創(chuàng)作中必不可少的關(guān)鍵環(huán)節(jié)。借助百度文心ERNIE-ViLG 2.0以及VIMER-TCIR等模型工具,創(chuàng)作者可以逐步完成他想要實(shí)現(xiàn)的目標(biāo)。

2022年10月,百度發(fā)布了業(yè)界首個(gè)知識(shí)增強(qiáng)的AI作畫(huà)大模型 ERNIE-ViLG 2.0。它能根據(jù)一句話(huà)或者一段描述文本,生成一幅精美的畫(huà)作。吳華介紹指出,為提高文本生成圖像的準(zhǔn)確性,百度在AI預(yù)訓(xùn)練學(xué)習(xí)過(guò)程中創(chuàng)新性地提出了知識(shí)增強(qiáng)的擴(kuò)散模型,實(shí)現(xiàn)了精準(zhǔn)的細(xì)粒度語(yǔ)義控制;同時(shí)通過(guò)引入混合降噪專(zhuān)家網(wǎng)絡(luò),對(duì)圖像生成不同階段對(duì)模型、計(jì)算性能要求的不同,使用不同網(wǎng)絡(luò)進(jìn)行了針對(duì)性地建模和優(yōu)化,進(jìn)而提升了圖像生成的質(zhì)量。

吳華指出,在實(shí)際應(yīng)用場(chǎng)景下,只需要輸入一段文字,ERNIE-ViLG就可以快速理解這段文字所表達(dá)的含義和場(chǎng)景,然后根據(jù)這個(gè)理解,幾十秒內(nèi)就可以生成媲美人類(lèi)作畫(huà)水平的圖像,而且可以同時(shí)生成數(shù)百?gòu)堬L(fēng)格各異的畫(huà)作,比如寫(xiě)實(shí)、意象、中國(guó)風(fēng)、二次元等等。它甚至可以生成現(xiàn)實(shí)世界中沒(méi)有創(chuàng)造性的圖像,比如穿西裝的齊天大圣、街邊擼串兒的熊貓,讓人們天馬行空的想象力得到精準(zhǔn)的可視化呈現(xiàn)。

文心 ERNIE-ViLG 2.0 可廣泛應(yīng)用于工業(yè)設(shè)計(jì)、動(dòng)漫設(shè)計(jì)、游戲制作、攝影藝術(shù)等場(chǎng)景,激發(fā)設(shè)計(jì)者創(chuàng)作靈感,提升內(nèi)容生產(chǎn)的效率。


文心ERNIE-ViLG API (https://wenxin.baidu.com/moduleApi/ernieVilg)

據(jù)介紹,在權(quán)威公開(kāi)數(shù)據(jù)集 MS-COCO 上,目前ERNIE-ViLG 2.0已經(jīng)刷新 SOTA 效果,性能遠(yuǎn)遠(yuǎn)超過(guò)了國(guó)際上的同類(lèi)技術(shù);而在圖文相關(guān)性和圖像保真度兩個(gè)維度的人工評(píng)估上,ERNIE-ViLG 2.0 相對(duì) DALL-E 2 和 Stable Diffusion 同樣取得了較大的優(yōu)勢(shì)。

目前,面向普通用戶(hù),百度以文心ERNIE-ViLG 2.0大模型為底座推出了“文心一格”產(chǎn)品,用戶(hù)只需輸入一段自己的創(chuàng)想文字,并選擇期望的畫(huà)作風(fēng)格,即刻可以生成創(chuàng)意精美的畫(huà)作。


天才剪輯:VIMER-TCIR多任務(wù)大模型

由于人類(lèi)眼睛的特殊生理結(jié)構(gòu),如果所看畫(huà)面的幀率高于60Hz時(shí),就會(huì)認(rèn)為是連貫的,這也造就了早期電影膠片是一格一格拍攝出來(lái),然后再快速播放的情況。而AI生成的圖像,在經(jīng)過(guò)幀率的調(diào)控之后,也將進(jìn)一步生成視頻。

據(jù)吳華介紹,在視覺(jué)內(nèi)容生成方面,百度在文生圖擴(kuò)散模型的基礎(chǔ)上加入時(shí)序建模,使得模型能根據(jù)文本或者圖像生成新的視頻。創(chuàng)作者可以根據(jù)用戶(hù)提供的一段描述文本,或者一幅圖像,自動(dòng)地生成高清、流暢的視頻。

此外,通過(guò)百度研發(fā)的VIMER-TCIR多任務(wù)大模型,還可以實(shí)現(xiàn)對(duì)生成視頻的修復(fù)和編輯,通過(guò)畫(huà)質(zhì)提升、邊緣銳化等方式增強(qiáng)視頻的清晰度,達(dá)到全方位提升視頻編輯效率和觀感體驗(yàn)。據(jù)悉,TCIR模型已在去噪、增強(qiáng)、去模糊等多個(gè)任務(wù)領(lǐng)域達(dá)到SOTA結(jié)果,并在AIM2022壓縮圖像超分競(jìng)賽中,以大幅度領(lǐng)先優(yōu)勢(shì)取得冠軍。

目前,VIMER-TCIR多任務(wù)大模型也已經(jīng)在老電影修復(fù)等場(chǎng)景實(shí)現(xiàn)落地,大幅提升了效率,每天單機(jī)可修復(fù)視頻28.5萬(wàn)幀,解決了絕大部分畫(huà)面的修復(fù)問(wèn)題。

吳華強(qiáng)調(diào),一系列AIGC生產(chǎn)工具的出現(xiàn),大幅度提高了音視頻等內(nèi)容創(chuàng)作者的工作效率。AIGC正讓個(gè)體創(chuàng)作者成為真正的“獨(dú)立”制作人。

另?yè)?jù)吳華透露,即將于1月10日召開(kāi)的 2022百度Create大會(huì)上,百度還將推出更多的AIGC工具產(chǎn)品并對(duì)相關(guān)技術(shù)進(jìn)行講解。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2023-01-05
編劇、繪畫(huà)、后期剪輯AI全能干 百度吳華:熟練掌握AIGC讓創(chuàng)造更高效
1月5日消息,2022年以來(lái),隨著谷歌、百度、Meta、微軟等國(guó)內(nèi)外企業(yè)先后推出自己的AI繪畫(huà)模型或者平臺(tái),AIGC這一新型內(nèi)容創(chuàng)作形式,獲得了越來(lái)越多的關(guān)注。在今年7月的百度世界大會(huì)上,百度創(chuàng)始人李彥宏曾表示:“AIGC

長(zhǎng)按掃碼 閱讀全文