阿里、微軟“看圖說(shuō)話(huà)”AI系統(tǒng)競(jìng)賽,WiMi微美全息機(jī)器人AI視覺(jué)突出

隨著材料科學(xué)、感知人工智能以及5G、云等網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步,將出現(xiàn)護(hù)理機(jī)器人、仿生機(jī)器人、社交機(jī)器人、管家機(jī)器人等形態(tài)豐富的機(jī)器人,涌現(xiàn)在家政、教育、健康服務(wù)業(yè),帶給人類(lèi)新的生活方式。以5G、AR/VR、全息技術(shù)、機(jī)器學(xué)習(xí)等新技術(shù)使能的超級(jí)視野,將幫助我們突破空間、表象、時(shí)間的局限,見(jiàn)所未見(jiàn),賦予人類(lèi)新的能力。

近日,來(lái)自中國(guó)AI在這項(xiàng)能力上已經(jīng)打破了世界紀(jì)錄。在第二屆全球AI視覺(jué)對(duì)話(huà)競(jìng)賽(Visual Dialogue Challenge)中,阿里AI擊敗了微軟、首爾大學(xué)等十支參賽隊(duì)伍,一舉獲得冠軍。

這場(chǎng)視覺(jué)對(duì)話(huà)競(jìng)賽由美國(guó)佐治亞理工大學(xué)、Facebook人工智能實(shí)驗(yàn)室(FAIR)等機(jī)構(gòu)聯(lián)合全球視覺(jué)技術(shù)領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議CVPR發(fā)起,是目前視覺(jué)對(duì)話(huà)領(lǐng)域最權(quán)威的競(jìng)賽之一。

競(jìng)賽結(jié)果顯示,阿里AI以74.57%的準(zhǔn)確率獲得冠軍,將上一屆比賽的紀(jì)錄提高了16.82%,并且超過(guò)微軟AI的64.78%的準(zhǔn)確率。而在相同的數(shù)據(jù)集中,人類(lèi)的準(zhǔn)確率僅為64.27%,AI甚至勝過(guò)了人類(lèi)。傳統(tǒng)的視覺(jué)AI主要針對(duì)目標(biāo)的檢測(cè)和識(shí)別,但對(duì)復(fù)雜場(chǎng)景中目標(biāo)之間的邏輯關(guān)系理解、推理能力較弱,無(wú)法回答表達(dá)圖片對(duì)象直接關(guān)系的復(fù)雜問(wèn)題,也難以將圖片信息轉(zhuǎn)化為人類(lèi)理解的語(yǔ)言輸出。這意味著,要實(shí)現(xiàn)視覺(jué)對(duì)話(huà)能力,傳統(tǒng)的視覺(jué)AI在學(xué)會(huì)“看圖”之后,還要有一種語(yǔ)言模型來(lái)支撐它“說(shuō)話(huà)”。阿里AI的突破就在于提出了“遞歸探索對(duì)話(huà)模型”

目前微軟還開(kāi)放了能“看圖說(shuō)話(huà)”的AI系統(tǒng),用戶(hù)進(jìn)入官網(wǎng)www.captionbot.ai 上傳圖片,稍等一會(huì),就能看到系統(tǒng)對(duì)于圖片的描述。其準(zhǔn)確率雖然不低但依舊有待提升,以一張?jiān)?jīng)廣為流傳的黑人問(wèn)號(hào)表情圖片為例,AI很快給出了客觀的回答:“我覺(jué)得這是籃球隊(duì)員尼克·楊露出牙齒微笑。”

阿里、微軟“看圖說(shuō)話(huà)”AI系統(tǒng)競(jìng)賽,WiMi微美全息機(jī)器人AI視覺(jué)突出

以“看圖說(shuō)話(huà)”為代表的視覺(jué)對(duì)話(huà)是近年來(lái)快速崛起的AI研究方向,目的在于教會(huì)機(jī)器用自然語(yǔ)言與人類(lèi)討論視覺(jué)內(nèi)容,這能夠使機(jī)器擁有了對(duì)真實(shí)視覺(jué)世界的理解與推斷能力,也意味著AI的認(rèn)知能力將邁上新的臺(tái)階。

正如《2001太空漫游》《流浪地球》等科幻大片中無(wú)障礙的人機(jī)對(duì)話(huà)系統(tǒng)所描繪的那樣,擁有智能視覺(jué)對(duì)話(huà)能力的AI隨著技術(shù)的不斷突破,正在向我們走來(lái)。

市場(chǎng)研究機(jī)構(gòu) IDC 最新發(fā)布的《全球半年度 AI 系統(tǒng)支出指南》顯示,亞太地區(qū) 2019 年在人工智能 (AI) 系統(tǒng)方面的支出預(yù)計(jì)將達(dá)到 55 億美元,比 2018 年增長(zhǎng)近 80 %。隨著各行各業(yè)積極投資于利用 AI 軟件功能的項(xiàng)目,預(yù)計(jì) 2022 年將增至 150.6 億美元。亞太地區(qū)正迅速推動(dòng) AI 應(yīng)用迅速增長(zhǎng),因?yàn)槠鋽?shù)字生態(tài)系統(tǒng)非常適合這種新生技術(shù)發(fā)展。

人體識(shí)別指的是運(yùn)用計(jì)算機(jī)技術(shù)在視頻流或圖像中對(duì)人體進(jìn)行檢測(cè)、屬性描述以及行為識(shí)別,如我們熟知的人體檢測(cè)與跟蹤、人體關(guān)鍵點(diǎn)定位、人像分割、人體行為識(shí)別 ReID 技術(shù)、手勢(shì)識(shí)別等。

微美全息專(zhuān)注于計(jì)算機(jī)視覺(jué)全息云服務(wù),微美全息覆蓋從全息計(jì)算機(jī)視覺(jué)AI合成、全息視覺(jué)呈現(xiàn)、全息互動(dòng)軟件開(kāi)發(fā)、全息AR線(xiàn)上及線(xiàn)下廣告投放、全息ARSDK支付、5G全息通訊軟件開(kāi)發(fā)、全息人臉識(shí)別開(kāi)發(fā)、全息AI換臉開(kāi)發(fā)等全息AR技術(shù)的多個(gè)環(huán)節(jié),是一家全息云綜合技術(shù)方案提供商。

微美全息十分注重底層技術(shù)的研發(fā),憑借多年來(lái)在計(jì)算機(jī)視覺(jué)領(lǐng)域的耕耘與積累,微美全息已經(jīng)完成了從0到1的技術(shù)沉淀、打磨,微美的AI視覺(jué)技術(shù)已經(jīng)到了成熟落地,各項(xiàng)技術(shù)指標(biāo)也達(dá)到了行業(yè)的領(lǐng)先水平。技術(shù)成熟后,微美著重規(guī)劃了從1到N落地應(yīng)用,其中機(jī)器人是規(guī)劃中非常重要的一環(huán)。微美全息云產(chǎn)品布局商業(yè)應(yīng)用場(chǎng)景主要聚集在家用娛樂(lè)、光場(chǎng)影院、演藝系統(tǒng)、商業(yè)發(fā)布系統(tǒng)及廣告展示系統(tǒng)等五大專(zhuān)業(yè)領(lǐng)域。

微美的全息圖像處理功能定期進(jìn)行優(yōu)化和改進(jìn),包括兩項(xiàng)核心技術(shù):全息AI面部識(shí)別技術(shù)和全息AI面部變化技術(shù)。由于視頻處理和識(shí)別技術(shù)的發(fā)展,微美基于圖像檢測(cè)、識(shí)別、模板匹配、圖像動(dòng)態(tài)融合和替換的全息AR廣告和全息成像服務(wù)目前在行業(yè)中處于領(lǐng)先地位。

全息面部變化技術(shù)基于全息3D圖層替換技術(shù),包括基于AI的圖像識(shí)別和動(dòng)態(tài)融合處理技術(shù),實(shí)時(shí)跟蹤圖像以及用其他面部替換面部。該技術(shù)取代視頻幀中的人臉,合成視頻并添加原始音頻。微美已經(jīng)在全息AR插件廣告應(yīng)用中驗(yàn)證了這些技術(shù)模塊,并將繼續(xù)開(kāi)發(fā)和升級(jí)這些技術(shù)模塊。微美相信這項(xiàng)技術(shù)將為名人廣告,電影發(fā)行和直播視頻流等應(yīng)用帶來(lái)新的業(yè)務(wù)增長(zhǎng)。

圖:全息三維人臉識(shí)別技術(shù)

阿里、微軟“看圖說(shuō)話(huà)”AI系統(tǒng)競(jìng)賽,WiMi微美全息機(jī)器人AI視覺(jué)突出

同時(shí),機(jī)器人行業(yè)也迫切需要AI視覺(jué)技術(shù)的支持來(lái)突破技術(shù)瓶頸,解決機(jī)器人現(xiàn)有成本、智能化等問(wèn)題。通過(guò)微美全息的圖像語(yǔ)義技術(shù),機(jī)器人可以進(jìn)行圖像識(shí)別、語(yǔ)義分割,結(jié)合深度數(shù)據(jù)可以幫助機(jī)器人建立語(yǔ)義地圖,實(shí)現(xiàn)對(duì)周?chē)h(huán)境的立體感知與理解,使機(jī)器人具備從識(shí)別到?jīng)Q策的AI交互能力,實(shí)現(xiàn)諸如目標(biāo)行人追蹤、服務(wù)機(jī)器人送餐上門(mén)等功能,大幅提升機(jī)器人的智能水平。

近日,中國(guó)華為技術(shù)有限公司發(fā)布了全球產(chǎn)業(yè)展望報(bào)告GIV2025,認(rèn)為智能世界正在加速而來(lái),觸手可及。根據(jù)該報(bào)告的預(yù)測(cè),到2025年,智能技術(shù)將滲透到每個(gè)人、每個(gè)家庭、每個(gè)組織,全球58%的人口將能享有5G網(wǎng)絡(luò),14%的家庭擁有“機(jī)器人管家”,97%的大企業(yè)將應(yīng)用人工智能。華為全球信息和通信技術(shù)基礎(chǔ)設(shè)施業(yè)務(wù)首席營(yíng)銷(xiāo)官?gòu)埡晗脖硎荆?ldquo;人類(lèi)的探索永不止步,從地球到太空要飛得更高,從過(guò)去到未來(lái)要看得更遠(yuǎn),從創(chuàng)新到創(chuàng)造要想得更深。今天,以人工智能、5G、云計(jì)算為主導(dǎo)的第四次工業(yè)革命所帶來(lái)的改變,正在改變各行各業(yè),推進(jìn)智能世界加速到來(lái)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-08-13
阿里、微軟“看圖說(shuō)話(huà)”AI系統(tǒng)競(jìng)賽,WiMi微美全息機(jī)器人AI視覺(jué)突出
隨著材料科學(xué)、感知人工智能以及5G、云等網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步,將出現(xiàn)護(hù)理機(jī)器人、仿生機(jī)器人、社交機(jī)器人、管家機(jī)器人等形態(tài)豐富的機(jī)器人,涌現(xiàn)在家政、教育、健康服務(wù)業(yè)

長(zhǎng)按掃碼 閱讀全文