三維識(shí)圖,賦予機(jī)器真正的視覺

無論是擎天柱、伊娃和瓦力或是今年大火的大白,電影中人類往往把機(jī)器想象成無所不能的“超人”,但現(xiàn)實(shí)呢?人類一些聽、看、觸摸、感知世界等最基本的能力,對(duì)機(jī)器而言都有難度,比如——視覺。或許你會(huì)說“攝像頭”就是機(jī)器之眼呀,但過去攝像頭的核心作用只有一個(gè):記錄影像。李彥宏在2012年KDD(知識(shí)發(fā)現(xiàn)世界年會(huì))上提出9大待解技術(shù)問題之一,“基于內(nèi)容的的視覺搜索”指的就是這一技術(shù)難題。而現(xiàn)在百度率先實(shí)現(xiàn)了計(jì)算機(jī)視覺領(lǐng)域“三維識(shí)圖”技術(shù)的突破,這個(gè)難題離徹底解決又邁出了關(guān)鍵一步。

計(jì)算機(jī)看見的世界與人眼有何不同?

目前的圖像識(shí)別都用在哪些方面呢?識(shí)別二維碼、書本、CD、菜單、人臉…這些機(jī)器做的都還不錯(cuò),而且百度、Google等一直在探索的基于這些圖像的搜索,識(shí)別率已經(jīng)具備商用條件。但這些物體的共性在于,它們都是平面的。如果換做穿著的服裝、行動(dòng)的動(dòng)物、周遭的街景、市場(chǎng)的蔬菜這些“非剛體”“非平面”的“三維立體空間”內(nèi)容,機(jī)器的識(shí)別率就很難讓人滿意。核心原因在于,機(jī)器看到的世界,是被一個(gè)一個(gè)色彩像素表征的二維序列,但是對(duì)與透視、深淺、近景、遠(yuǎn)景,這些需要被“三維感知”的世界卻沒有很好的概念。

無法識(shí)別三維世界,導(dǎo)致了圖像識(shí)別能力十分有限。除了必須面對(duì)一些特定的圖片類型外,還需要用戶穩(wěn)穩(wěn)拿著手機(jī)對(duì)二維碼、圖書封面等物體進(jìn)行掃描識(shí)別,這也讓手機(jī)等設(shè)備的理解能力大打折扣。識(shí)別的目的是為了理解所看到的內(nèi)容,每一幕都有非常豐富的意思,人工智能識(shí)圖的能力就像兩三歲的孩童,兒童認(rèn)知世界的過程便是基于三維世界的識(shí)別,基于二維世界識(shí)別的機(jī)器,很難在圖像意義理解上取得突破。所以如何讓機(jī)器知深淺、識(shí)遠(yuǎn)近,三維立體地看見這個(gè)世界,一直是科學(xué)家們努力的方向。

近日百度展示了一項(xiàng)最新的圖像識(shí)別技術(shù):三維識(shí)圖,有望解決這個(gè)問題。

這項(xiàng)技術(shù)可以對(duì)三維圖片進(jìn)行自動(dòng)的分類和檢測(cè),進(jìn)而可以進(jìn)行圖像識(shí)別、智能裁剪、智能模糊等處理。百度與國(guó)內(nèi)知名手機(jī)制造商華為合作,通過其獨(dú)創(chuàng)的仿生學(xué)平行雙鏡頭硬件技術(shù)平臺(tái)拍攝出包含景深信息的照片,再通過一系列算法解析照片,大大提升圖像識(shí)別成功率。此技術(shù)即將應(yīng)用在搜索、解鎖諸多方面。

三維識(shí)別的難點(diǎn):硬件要求和識(shí)別效率

在百度三維識(shí)別技術(shù)推出之前,業(yè)界已有些許案例。在2014年的Intel IDF上,Intel推出了一款3D深度攝像頭,它可以更好地追蹤眼球、體感、表情等動(dòng)態(tài)圖像,會(huì)上還展示了與騰訊QQ的合作,可以對(duì)視頻進(jìn)行動(dòng)態(tài)的“美化處理”。Google相機(jī)具備一個(gè)“智能模糊”功能,即一鍵實(shí)現(xiàn)單反相機(jī)的遠(yuǎn)景模糊效果,這說明它已經(jīng)可以區(qū)分遠(yuǎn)景和深景。

三維識(shí)別的第一步是要獲取或可以還原成三維圖像。單個(gè)攝像頭的二維屬性讓這成為難點(diǎn)。Intel與QQ的合作仍舊未能如約落地,專門的3D深度攝像頭并未普及?;蛟S是技術(shù)不成熟,或許是成本太高。有手機(jī)廠商開始采取雙攝像頭,模擬動(dòng)物的雙眼這個(gè)解決方案實(shí)現(xiàn)三維圖像的獲?。?D電影拍攝也是如此)。百度三維識(shí)圖技術(shù)正是基于這一方案獲取到的三維圖像內(nèi)容進(jìn)行,引入了圖像分類和檢測(cè)技術(shù),相似圖檢索和猜詞得分上較之以前有大幅提升。

下一階段百度三維識(shí)圖技術(shù)還會(huì)引入“單目相機(jī)深度恢復(fù)算法”,即不依賴于雙攝像頭,而是利用普通的攝像頭就可以了,具體方法為持機(jī)手臂左右位移一點(diǎn)點(diǎn),相當(dāng)于用軟件實(shí)現(xiàn),讓用戶拍攝時(shí)輕輕“搖一搖”,成本更低。其原理與光場(chǎng)相機(jī)類似,這是“先拍照后對(duì)焦”的新一代相機(jī),它在拍攝時(shí)捕捉一副圖片的整個(gè)光場(chǎng),而不僅僅捕捉到一片光線。光場(chǎng)相機(jī)提供一套軟件技術(shù)對(duì)所有圖像數(shù)據(jù)進(jìn)行處理還原,它已將核心技術(shù)進(jìn)行開放。

相對(duì)Google相機(jī)的智能模糊功能而言,百度內(nèi)部測(cè)試表明,其App在幾款主流Android機(jī)上,識(shí)別時(shí)間效率遠(yuǎn)超Google。能夠?qū)崿F(xiàn)這一點(diǎn),在于百度識(shí)別的大部分運(yùn)算應(yīng)該是在云端進(jìn)行,百度大腦可能在后面支持。云+端的識(shí)別才是機(jī)器視覺的未來,眼睛在本地,大腦在云端。在準(zhǔn)確率上百度表現(xiàn)也更好。

因此,如果能擺脫對(duì)“雙攝像頭”或者“3D深度攝像頭”的依賴,3D圖像獲取將不是問題。而云+端的架構(gòu)則可以讓識(shí)別效率大幅提升,百度的三維識(shí)別算法就可以被普及到更多設(shè)備和更多應(yīng)用之中。

三維識(shí)別給世界帶來什么改變?給機(jī)器真正的視覺。

PC、手機(jī)、智能攝像頭、工業(yè)攝像頭、治安攝像頭、交通攝像,我們周圍充滿著“機(jī)器眼睛”。不過這些機(jī)器在過去并沒有真正的視覺。想象一下我們的視覺能力,除了可以識(shí)別靜態(tài)圖像之外,還可以識(shí)別三維世界的深淺、遠(yuǎn)近、模糊與清晰等等。我們可以動(dòng)態(tài)識(shí)別變化的世界,瞬間完成識(shí)別過程毫無時(shí)延。不依賴特殊設(shè)備、可高效率完成的三維識(shí)別則有望給機(jī)器賦予人類一樣的視覺。這是它可能帶來的幾個(gè)典型應(yīng)用:

1、實(shí)時(shí)視覺移動(dòng)搜索。實(shí)時(shí)、視覺和移動(dòng)都是搜索引擎發(fā)展的幾個(gè)趨勢(shì)。百度2014年改變可以邊輸入邊搜索,就是實(shí)時(shí)化的開始。比如您可以戴著智能眼鏡或者舉著智能手機(jī),邊走路一邊獲得百度推送的答案:旁邊是店鋪介紹和評(píng)價(jià)、景區(qū)的百科和歷史、賽事的球員資料推送……這是未來搜索必然會(huì)進(jìn)入的階段,它非常自然因此聽上去有些科幻,要實(shí)現(xiàn)第一步就是要讓機(jī)器可以動(dòng)態(tài)、實(shí)時(shí)、立體識(shí)別世界,三維圖像識(shí)別可以幫到這一點(diǎn)。百度還具有李彥宏親子參與申請(qǐng)的“多輪實(shí)體識(shí)別”的專利,它與三維圖像識(shí)別結(jié)合可以讓人機(jī)交互更加自然。

2、工業(yè)級(jí)圖像識(shí)別檢索。美國(guó)金門大橋需要收費(fèi),汽車卻不需停車,因?yàn)閿z像頭會(huì)抓拍并識(shí)別車牌號(hào),賬單自動(dòng)寄送,這應(yīng)該運(yùn)用了三維圖像識(shí)別技術(shù),不過有嚴(yán)重的滯后。如果能夠做到適時(shí)識(shí)別生活中的一切物體,交通部門就可以實(shí)時(shí)發(fā)送收費(fèi)、違章、違規(guī)信息給司機(jī),甚至直接從信用卡扣款。政府部門在街上有著星羅棋布的攝像頭,不過要做到智能識(shí)別通緝犯并定位抓人還是很難,因?yàn)樽R(shí)別能力和時(shí)間效率的問題,三維識(shí)別技術(shù)未來可能解決這個(gè)問題??傊褪歉鞣N工業(yè)、軍用、政府?dāng)z像頭可以更加準(zhǔn)確地、快速地識(shí)別真實(shí)世界的實(shí)體,進(jìn)而產(chǎn)生大量應(yīng)用。

3、更豐富的虛擬現(xiàn)實(shí)體驗(yàn)。有一款seene的App即3D版的Instagram通過不同角度拍攝4張照片合成一張實(shí)現(xiàn)3D取景。百度三維識(shí)圖未來可以借助這種方式實(shí)現(xiàn)一些增強(qiáng)現(xiàn)實(shí)應(yīng)用。比如建模用戶的三維生活環(huán)境,然后與社交應(yīng)用結(jié)合進(jìn)行遠(yuǎn)程聊天;與百度地圖結(jié)合做3D街景的UGC,三維視圖可以智能分類、合成和識(shí)別街景實(shí)體;基于三維視圖的反向3D建模內(nèi)容,與網(wǎng)絡(luò)游戲或者電視游戲結(jié)合做增強(qiáng)現(xiàn)實(shí)的體感游戲;利用虛擬現(xiàn)實(shí)做在線教育,三維識(shí)圖可以幫助生成各種模擬場(chǎng)景讓學(xué)生帶上頭盔體驗(yàn),或者可以智能跟蹤識(shí)別視頻中學(xué)生和老師的學(xué)習(xí)行為并分析匯總??傊?,三維視圖讓虛擬現(xiàn)實(shí)建模更容易。

三維識(shí)圖的成熟對(duì)于機(jī)器視覺而言將具有里程碑的意義,它讓機(jī)器真正擁有跟人類相近的視覺,進(jìn)而在圖像信息的獲取上可以接近人類。隨后便可進(jìn)行更多的圖像意義理解,去理解這個(gè)世界,最終讓這個(gè)世界更美好。李彥宏先后提出過互聯(lián)網(wǎng)進(jìn)入讀圖時(shí)代、未來5年50%搜索會(huì)來自語音和圖像、“基于內(nèi)容的的視覺搜索”是九大待解技術(shù)難題等觀點(diǎn),并且還申請(qǐng)了“多輪圖像實(shí)體識(shí)別專利”。李彥宏如此重視機(jī)器視覺這塊,百度在三維識(shí)圖之后應(yīng)該還會(huì)有更多新的成績(jī),讓機(jī)器能聽能看會(huì)思考,是百度未來重中之重。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2015-09-21
三維識(shí)圖,賦予機(jī)器真正的視覺
無論是擎天柱、伊娃和瓦力或是今年大火的大白,電影中人類往往把機(jī)器想象成無所不能的“超人”,但現(xiàn)實(shí)呢?人類一些聽、看、觸摸、感知世界

長(zhǎng)按掃碼 閱讀全文