Meta研究員創(chuàng)造出人工視覺皮層,可以讓機(jī)器人通過視覺進(jìn)行操作

極客網(wǎng)·人工智能4月10日 Meta公司AI研究部門的研究人員日前發(fā)布一項(xiàng)公告,宣布在機(jī)器人自適應(yīng)技能協(xié)調(diào)和視覺皮層復(fù)制方面取得關(guān)鍵進(jìn)展。他們表示,這些進(jìn)展允許AI驅(qū)動(dòng)的機(jī)器人通過視覺在現(xiàn)實(shí)世界中操作,并且不需要獲取現(xiàn)實(shí)世界的任何數(shù)據(jù)。

他們聲稱,這是在創(chuàng)建通用的“具象AI(Embodied AI)”機(jī)器人方面的一個(gè)重大進(jìn)步,這種機(jī)器人能夠在沒有人類干預(yù)的情況下與現(xiàn)實(shí)世界互動(dòng)。研究人員還表示,他們創(chuàng)建了一種名為“VC-1”的人工視覺皮層,這個(gè)視覺皮層在Ego4D數(shù)據(jù)集上訓(xùn)練,而Ego4D數(shù)據(jù)集來自全球各地的數(shù)千名研究參與者記錄日?;顒?dòng)的視頻。

正如研究人員在之前發(fā)表的一篇博客文章中解釋的那樣,視覺皮層是大腦中使生物能夠?qū)⒁曈X轉(zhuǎn)化為運(yùn)動(dòng)的區(qū)域。因此,對(duì)于任何需要根據(jù)眼前景象來執(zhí)行任務(wù)的機(jī)器人來說,具備人工視覺皮層是一個(gè)關(guān)鍵要求。

由于“VC-1”的人工視覺皮層需要在各種環(huán)境中很好地執(zhí)行一系列不同的感覺運(yùn)動(dòng)任務(wù),Ego4D數(shù)據(jù)集發(fā)揮了特別重要的作用,因?yàn)樗搜芯繀⑴c者通過可穿戴攝像頭記錄日常活動(dòng)的數(shù)千小時(shí)視頻,這些活動(dòng)包括烹飪、清潔、運(yùn)動(dòng)、手工制作等。

研究人員稱:“生物有機(jī)體有一個(gè)通用的視覺皮層,這就是我們所尋找的具象代理。因此,我們開始創(chuàng)建一個(gè)在多個(gè)任務(wù)中表現(xiàn)良好的數(shù)據(jù)集,以Ego4D作為核心數(shù)據(jù)集,并通過添加額外的數(shù)據(jù)集來改進(jìn)VC-1。由于Ego4D主要關(guān)注烹飪、園藝和手工制作等日?;顒?dòng),我們還采用了探索房屋和公寓的以自我為中心的視頻數(shù)據(jù)集?!?/p>

然而,視覺皮層只是“具象AI”的一個(gè)元素,機(jī)器人要想在現(xiàn)實(shí)世界中完全自主地工作,還必須能夠操縱現(xiàn)實(shí)世界中的物體。機(jī)器人需要視覺進(jìn)行導(dǎo)航,找到并搬運(yùn)物體將它移動(dòng)到另一個(gè)位置,然后正確放置——所有這些動(dòng)作都是基于它所看到和聽到的情況自主實(shí)施。

為了解決這個(gè)問題,Meta的AI專家與佐治亞理工學(xué)院的研究人員合作開發(fā)了一種被稱為“自適應(yīng)技能協(xié)調(diào)”(ASC)的新技術(shù),機(jī)器人采用這種技術(shù)進(jìn)行模擬訓(xùn)練,然后將這些技能復(fù)制到現(xiàn)實(shí)世界的機(jī)器人身上。

Meta公司還與波士頓動(dòng)力開展合作,展示了其ASC技術(shù)的有效性。這兩家公司將ASC技術(shù)與波士頓動(dòng)力的Spot機(jī)器人相結(jié)合,使其機(jī)器人具有強(qiáng)大的傳感、導(dǎo)航和操作能力,盡管還需要大量的人工干預(yù)。例如挑選一個(gè)物體,還需要有人點(diǎn)擊機(jī)器人平板電腦上顯示的物體。

研究人員在文章中寫道:“我們的目標(biāo)是建立一個(gè)可以通過波士頓動(dòng)力API從機(jī)載傳感和電機(jī)命令中感知世界的AI模型?!?/p>

Spot機(jī)器人使用Habitat模擬器進(jìn)行測(cè)試,其模擬環(huán)境采用HM3D和ReplicaCAD數(shù)據(jù)集構(gòu)建,其中包含1000多個(gè)家庭的室內(nèi)3D掃描數(shù)據(jù)。然后,訓(xùn)練Spot機(jī)器人在一個(gè)它以前沒見過的房子里活動(dòng),搬運(yùn)物體,并將它們放在合適的位置。然后將受過訓(xùn)練的Spot機(jī)器人獲得的知識(shí)和信息復(fù)制到在現(xiàn)實(shí)世界操作的Spot機(jī)器人上,這些機(jī)器人根據(jù)他們對(duì)房屋布局的了解,自動(dòng)執(zhí)行同樣的任務(wù)。

研究人員寫道:“我們使用了一個(gè)185平方米的家具齊全的公寓和一個(gè)65平方米的大學(xué)實(shí)驗(yàn)室這兩個(gè)截然不同的現(xiàn)實(shí)環(huán)境對(duì)Spot機(jī)器人進(jìn)行測(cè)試,要求Spot機(jī)器人重新放置各種物品??傮w而言,采用ASC技術(shù)的Spot機(jī)器人的表現(xiàn)近乎完美,在60次測(cè)試中成功了59次,克服了硬件不穩(wěn)定、拾取故障以及移動(dòng)障礙物或阻塞路徑等對(duì)抗性干擾?!?/p>

Meta的研究人員表示,他們還開放了VC-1模型的源代碼,并在另一篇的論文中分享了如何縮放模型大小、數(shù)據(jù)集大小等方面的詳細(xì)情況。與此同時(shí),該團(tuán)隊(duì)的下一個(gè)重點(diǎn)將是嘗試將VC-1與ASC集成,以創(chuàng)建一個(gè)更接近人類的具象AI系統(tǒng)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2023-04-10
Meta研究員創(chuàng)造出人工視覺皮層,可以讓機(jī)器人通過視覺進(jìn)行操作
極客網(wǎng)·人工智能4月10日 Meta公司AI研究部門的研究人員日前發(fā)布一項(xiàng)公告,宣布在機(jī)器人自適應(yīng)技能協(xié)調(diào)和視覺皮層復(fù)制方面取得關(guān)鍵進(jìn)展。他們表示,這些進(jìn)展允許AI驅(qū)動(dòng)的機(jī)器人通過視覺在現(xiàn)實(shí)世界中操作,并且不需要獲取現(xiàn)實(shí)世界的任何數(shù)據(jù)。他們聲稱,這是在創(chuàng)建通用的“具象AI(Em...

長(zhǎng)按掃碼 閱讀全文