谷歌人工智能黑科技:把照片變視頻

據(jù)美國科技博客Gizmodo報道,本周《麻省理工科技評論》(Technology Review)雜志發(fā)布的一篇論文披露了谷歌研發(fā)的新系統(tǒng)DeepStereo,該系統(tǒng)可以通過人工智能技術(shù)將一系列照片無縫組合成為視頻。

  論文作者名為約翰-弗林(John Flynn),是一名谷歌工程師,其他三位合著者也都在谷歌工作。在論文中,弗林闡述了谷歌研發(fā)DeepStereo系統(tǒng)的全過程。

  早在DeepStereo之前,就有類似利用靜態(tài)圖片輸出動畫的技術(shù)存在。美國計算機協(xié)會計算機圖形專業(yè)組(SIGGRAPH)就曾通過網(wǎng)上圖像制作過延時動畫。

  但與其他靜態(tài)圖像生成動畫技術(shù)相比,DeepStereo系統(tǒng)最大的不同在于,它可以猜測出圖像的缺失部分,在空白處創(chuàng)造出來源圖片中沒有的新圖像。據(jù)英國媒體Register報道,和傳統(tǒng)動畫利用視覺暫停的原理不同,DeepSteoreo可以“想象出”兩幅靜止圖像之間的畫面。

  弗林和他的合著者在論文中寫道,“這項技術(shù)與之前的產(chǎn)品截然不同,我們嘗試采用新型深度架構(gòu)直接合成新圖像,不需要預(yù)先設(shè)置景深、焦距等訓(xùn)練數(shù)據(jù)。”

  該系統(tǒng)背后的網(wǎng)絡(luò)架構(gòu)原理十分復(fù)雜,借鑒了各種先例。但作者在文中介紹了該技術(shù)的獨到之處:系統(tǒng)在工作時會采用兩套獨立的網(wǎng)絡(luò)架構(gòu)。其中之一會根據(jù)已有的2D數(shù)據(jù)預(yù)測各個像素的景深。另外一個則會對色彩作出預(yù)測。兩者共同以2D圖像的形式完成對景深和色彩的預(yù)測,最終合成視頻。

  DeepStereo仍有不足之處:視頻角落的畫面很不清晰。“算法沒有涉及到的區(qū)域往往是模糊的,無法被覆蓋,也無法使用像素填充,”開發(fā)團隊解釋說。不過,這套系統(tǒng)暗藏了一個通過模糊的圖源生成物體的小技巧:“移動對象在訓(xùn)練數(shù)據(jù)中非常常見,我們的模型可以優(yōu)雅地完成這個動作:開始出現(xiàn)的時候是模糊的,然后逐漸轉(zhuǎn)換為運動模糊效果。”

  雖然該系統(tǒng)生成的最終產(chǎn)品與通過圖像簡單合成的動畫區(qū)別不大,但該技術(shù)能夠為谷歌的街景技術(shù)錦上添花。同時也能為谷歌的人工智能技術(shù)提供一個更加實用的范例。

  本月,谷歌的“夢想機器人”在互聯(lián)網(wǎng)上走紅,這是該公司超級先進(jìn)的人工神經(jīng)網(wǎng)絡(luò),由谷歌的工程師團隊開發(fā)而成。設(shè)計初衷是要找到一種切實可行的方法,讓計算機辯認(rèn)出圖像中的內(nèi)容。谷歌工程師正在教這些不可理喻的人工“大腦”辨識動物或架構(gòu),順便也做做“夢”,此舉令人感到震驚和恐懼。 

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2015-07-10
谷歌人工智能黑科技:把照片變視頻
本周《麻省理工科技評論》(Technology Review)雜志發(fā)布的一篇論文披露了谷歌研發(fā)的新系統(tǒng)DeepStereo,該系統(tǒng)可以通過人工智能技術(shù)將一系列照片無縫組合成為視頻。

長按掃碼 閱讀全文