一種能真實(shí)將人物插入圖片的模型


演示模型的能力,以現(xiàn)實(shí)的方式將個(gè)人插入不同的場(chǎng)景。 挑戰(zhàn)包括在給定的場(chǎng)景背景下推斷一個(gè)合理的姿勢(shì),重新設(shè)置人的姿勢(shì),以及協(xié)調(diào)插入與光照和陰影的關(guān)系。

該模型能夠?qū)⑷宋镎鎸?shí)地插入各種場(chǎng)景中。挑戰(zhàn)包括根據(jù)場(chǎng)景背景推斷合理的姿勢(shì),重新擺放人物,并使插入的人物在光線和陰影方面和諧。

生成模型的近期出現(xiàn)為創(chuàng)意產(chǎn)業(yè)帶來(lái)了有趣的新可能性。例如,它們可以讓藝術(shù)家和數(shù)字內(nèi)容創(chuàng)作者輕松地制作將不同圖像或視頻元素整合在一起的真實(shí)媒體內(nèi)容。

受到這些最新進(jìn)展的啟發(fā),斯坦福大學(xué)、加州大學(xué)伯克利分校和Adobe研究所的研究人員開(kāi)發(fā)了一種新模型,可以將特定人物真實(shí)地插入不同場(chǎng)景,例如在健身房鍛煉、在海灘上觀看日落等。


展示模型在推理時(shí)的輔助任務(wù),包括產(chǎn)生與場(chǎng)景兼容的人的幻覺(jué),生成適合于給定人的場(chǎng)景,以及在虛擬試穿設(shè)置中交換衣服。

他們提出的基于擴(kuò)散模型的架構(gòu),在arXiv服務(wù)器上的預(yù)發(fā)布論文中介紹,并將于今年6月在溫哥華舉行的計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議(CVPR)上展示。

該研究的主要目標(biāo)是將生成模型應(yīng)用于可供性感知任務(wù),希望獲得更可靠、真實(shí)的結(jié)果。在他們的最新論文中,專(zhuān)注于將人物真實(shí)地插入給定場(chǎng)景的問(wèn)題。

模型的輸入包括一個(gè)人物圖像和一個(gè)場(chǎng)景圖像,輸出是包含該人物的真實(shí)場(chǎng)景圖像。該生成模型通過(guò)自監(jiān)督訓(xùn)練方法訓(xùn)練,表現(xiàn)出了一系列有趣的輔助功能,如人物產(chǎn)生和虛擬試衣。


自我監(jiān)督訓(xùn)練方案。 提取兩個(gè)隨機(jī)幀,第一幀中的人被屏蔽掉。 然后,第二幀中的人被用作調(diào)節(jié)元素以補(bǔ)繪圖像。

研究人員使用自監(jiān)督訓(xùn)練方法訓(xùn)練了一個(gè)擴(kuò)散模型,這是一種可以將“噪聲”轉(zhuǎn)換成期望圖像的生成模型。擴(kuò)散模型通過(guò)“破壞”訓(xùn)練數(shù)據(jù)、向其添加“噪聲”,然后通過(guò)逆過(guò)程恢復(fù)部分原始數(shù)據(jù)來(lái)實(shí)現(xiàn)。

經(jīng)過(guò)一系列初步測(cè)試,研究人員發(fā)現(xiàn)模型表現(xiàn)出色,生成了相當(dāng)真實(shí)的圖片。他們的模型預(yù)測(cè)的可供性比過(guò)去非生成模型產(chǎn)生的可供性更好,適用范圍更廣。

未來(lái),這種模型可以應(yīng)用于創(chuàng)意軟件工具和照片編輯智能手機(jī)應(yīng)用,支持藝術(shù)家和媒體創(chuàng)作者的工作,讓用戶輕松、真實(shí)地將人物插入照片。

未來(lái)研究方向包括增加生成姿勢(shì)的可控性,擴(kuò)展系統(tǒng)生成人物在場(chǎng)景中移動(dòng)的真實(shí)視頻,研究模型效率,以及將本文方法應(yīng)用于所有對(duì)象。

本文譯自 techxplore,由 bali 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2023-05-26
一種能真實(shí)將人物插入圖片的模型
該模型能夠?qū)⑷宋镎鎸?shí)地插入各種場(chǎng)景中。挑戰(zhàn)包括根據(jù)場(chǎng)景背景推斷合理的姿勢(shì),重新擺放人物,并使插入的人物在光線和陰影方面和諧。生成模型的近期出現(xiàn)為創(chuàng)意產(chǎn)業(yè)帶來(lái)了有趣的新可能性。

長(zhǎng)按掃碼 閱讀全文