關(guān)于大疆Mavic Pro 還有哪些技術(shù)秘密你不知道?

“其實(shí),Mavic最核心的地方在于計(jì)算機(jī)視覺”,Mavic Pro發(fā)布后大疆的一名視覺工程師如此向雷鋒網(wǎng)強(qiáng)調(diào)著,彼時(shí)大家對(duì)于這款在很多方面都超越Phantom 4的無人機(jī)更多的討論還是圍繞在便攜和巧妙的工業(yè)設(shè)計(jì)上,而作為其中的參與者,Mavic Pro新增的智能功能才是讓他最為興奮的。按照公開資料來看,這些新增的智能功能讓Mavic Pro算得上是全球首款基于深度學(xué)習(xí)的消費(fèi)級(jí)無人機(jī)。

首先我們將Mavic Pro與Phantom 4對(duì)比一下,Mavic Pro新增了哪些智能功能:1. 手勢(shì)自拍;2. 物體識(shí)別;3. 視覺跟隨中的平行跟隨、焦點(diǎn)跟隨、 自動(dòng)環(huán)繞;4.精準(zhǔn)降落。

這里面每一個(gè)功能的背后,都是在試圖解決計(jì)算機(jī)視覺和機(jī)器人學(xué)領(lǐng)域里最核心也是最頭疼的難題,同時(shí)也是大疆隱藏最深的秘密。

手勢(shì)自拍

如今很多小型無人機(jī)都自稱自拍無人機(jī),不過其實(shí)都是屬于跟拍,通過跟蹤人或人臉來實(shí)現(xiàn)拍攝,大疆在今年3月的Phantom 4已經(jīng)實(shí)現(xiàn)過,如今包括正火的Hover Camera等無人機(jī)也都實(shí)現(xiàn)了這一功能。而Mavic Pro則是實(shí)實(shí)在在地實(shí)現(xiàn)了脫離遙控器的自拍,也就是通過手勢(shì)來進(jìn)行抓拍。

當(dāng)你走到畫面里,Mavic Pro會(huì)自己識(shí)別移動(dòng)的人,并且你可以向它揮手讓它來跟著你飛行,在跟蹤過程中只要做出拍照手勢(shì),它就會(huì)幫你抓拍。如此一來,你就能在拍照過程中完全將遙控器放收在包里。并且即使跟蹤丟失時(shí),也可以在不需要遙控器的幫助時(shí),重新走回畫面中,讓飛機(jī)繼續(xù)跟隨。值得一提的是,當(dāng)開啟GPS輔助時(shí),飛機(jī)會(huì)融合GPS的信息來進(jìn)行矯正。

對(duì)于一般的手勢(shì)識(shí)別系統(tǒng)而言,整體的步驟大概分為三步,也就是手部的定位、建模和識(shí)別。手部建?,F(xiàn)在主要有兩種方法,2D和3D,主要是看使用了什么樣的攝像頭,建模好后最后再進(jìn)行識(shí)別,比如你的手是張開的還是握拳的。據(jù)悉從這個(gè)3D手部模型到手勢(shì)識(shí)別是有不同的方法的,有的是直接拿3D手部模型去識(shí)別,有的是把3D模型轉(zhuǎn)化成2D圖像,再在這個(gè)基礎(chǔ)上利用深度學(xué)習(xí)進(jìn)行分類識(shí)別。目前在室內(nèi)環(huán)境中,由于距離較近,手勢(shì)識(shí)別的難度并不大,像微軟的Kinect就在電視游戲上得到很好的應(yīng)用。但在戶外的場(chǎng)景下,在無人機(jī)上用這種攝像頭遠(yuǎn)距離識(shí)別手勢(shì),大疆應(yīng)該算是首個(gè)嘗試的。

Mavic Pro并沒有使用3D攝像頭,而是通過2D主相機(jī)來進(jìn)行識(shí)別的,其難度要比使用3D攝像頭大很多。首先,飛機(jī)要在沒有深度信息的前提下準(zhǔn)確地識(shí)別和定位畫面中的人,其次,要完成一系列手部的定位、建模和動(dòng)作的識(shí)別。

Mavic Pro據(jù)稱使用的是深度學(xué)習(xí),而深度學(xué)習(xí)對(duì)于計(jì)算設(shè)備有較高要求,一般研究者需要NVIDIA Titan X這類GPU才能實(shí)現(xiàn)。Titan X舊版的處理性能大概在6T的Flops(每秒計(jì)算的浮點(diǎn)數(shù)),而大疆使用的是聯(lián)芯LC 1860,官方給出的總處理能力在8GFlops,相差大概700倍,在這么低的處理平臺(tái)上做深度學(xué)習(xí),就面臨著神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)上的突破,訓(xùn)練的技巧,模型的精簡(jiǎn)與壓縮,底層實(shí)現(xiàn)的優(yōu)化等問題。

關(guān)于Mavic Pro的手勢(shì)自拍,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))在體驗(yàn)過程中的感受是,反應(yīng)還比較及時(shí),大多數(shù)情況都能做到準(zhǔn)確識(shí)別,功能方面比較好。體驗(yàn)方面,閃爍燈提示在陽光下比較弱,閃爍3秒后開始拍照,如果倒計(jì)時(shí)開始時(shí)加個(gè)聲音提示可能會(huì)更好。

物體的檢測(cè)和識(shí)別

物體的識(shí)別,是指對(duì)于畫面中的主體進(jìn)行分類判定。其分類方式既可以是粗粒度的類別(比如汽車),也可以細(xì)粒度的類別(比如奔馳C200、寶馬X5)。物體的檢測(cè),是指在畫面中自動(dòng)找出感興趣物體,并標(biāo)出它們的輪廓。全世界著名的ImageNet競(jìng)賽,比拼的就是物體識(shí)別和檢測(cè)的準(zhǔn)確性。

Phantom 4的智能跟隨功能的一個(gè)痛點(diǎn)是需要用戶手動(dòng)在屏幕上框出要跟隨的目標(biāo),而由于小白用戶常常難以做到,尤其當(dāng)目標(biāo)在運(yùn)動(dòng)中。一方面會(huì)因?yàn)榭虻牟粶?zhǔn)確,而造成智能跟隨表現(xiàn)不理想,另一方面對(duì)于正在運(yùn)動(dòng)中的物體,很難框中。而物體檢測(cè)和識(shí)別技術(shù),可以讓用戶實(shí)現(xiàn)即點(diǎn)即走,讓智能跟隨的體驗(yàn)有了質(zhì)的提升。這次Mavic Pro可以自動(dòng)檢測(cè)識(shí)別多種常見物體(人、汽車、卡車、動(dòng)物、船、人騎自行車或摩托車等),并號(hào)稱其跟隨的動(dòng)作會(huì)根據(jù)不同的物體有相應(yīng)的優(yōu)化。

Mavic Pro對(duì)人的跟隨,圖片來自網(wǎng)絡(luò)體驗(yàn)視頻

Mavic Pro對(duì)船的跟隨,圖片來自網(wǎng)絡(luò)體驗(yàn)視頻

智能跟隨的模式升級(jí)

無人機(jī)跟隨主要有兩種方式,一種是依靠GPS,一種是依靠視覺。GPS跟隨需要用戶攜帶額外的遙控接收器,并且依賴于空曠的環(huán)境以確保GPS信號(hào)足夠強(qiáng)。此外,讓用戶最過頭疼的是,GPS跟隨難以保證拍攝主體在畫面中。視覺跟隨可以很好地克服這些缺點(diǎn),但是視覺跟隨的難度也比較大。由于視覺跟隨過程中是沒有人類交互的,告訴算法的所有信息都在第一幀的框里,這個(gè)框告訴了算法什么是目標(biāo),什么是背景,而算法并不知道的是,這個(gè)目標(biāo)在其它視角的樣子是什么,也不知道這個(gè)目標(biāo)如果自身會(huì)改變成什么樣的形態(tài)。如果目標(biāo)的姿態(tài)變化過大,或者目標(biāo)在另一個(gè)視角下看起來跟一開始的樣子差別很大,算法還需要判斷現(xiàn)在框里的還是不是當(dāng)初那個(gè)目標(biāo),或者是不是已經(jīng)變成另一個(gè)物體了。也就是說,第一幀的框,是不是能緊緊框住目標(biāo)的邊緣,不包含太多背景。也不遺漏掉目標(biāo)的其它部分,這對(duì)于跟隨的算法來說至關(guān)重要。

Phantom 4已經(jīng)實(shí)現(xiàn)了視覺跟隨,不過僅限于前方與側(cè)前方跟隨,Mavic Pro為用戶帶來了多種跟拍模式,包括焦點(diǎn)跟隨,以及用戶期待已久的平行跟隨和自動(dòng)環(huán)繞。這兩個(gè)模式能夠幫用戶拍出一些意想不到的視頻。但在這些模式下,飛機(jī)看到目標(biāo)的視角和樣子也千變?nèi)f化,對(duì)算法的魯棒性提出了更高的挑戰(zhàn)。要做到低空高空都能任意跟隨的話,在目標(biāo)跟蹤領(lǐng)域里也是一大難題。而Mavic Pro能夠在低成本低性能的平臺(tái)上實(shí)現(xiàn)對(duì)任意物體的跟隨,并且根據(jù)目標(biāo)的類型而選擇合適的跟隨策略進(jìn)行控制。

YouTube上這則用戶使用ActiveTrack的自動(dòng)環(huán)繞功能的視頻,其中的目標(biāo)包含了各種姿勢(shì)的形變,包括站起、蹲下、趴下,在水面的遮擋干擾,光線的強(qiáng)弱變化等等干擾因素下,ActiveTrack仍然順利完成了跟蹤任務(wù)。

精準(zhǔn)降落

與其他大疆無人機(jī)產(chǎn)品一樣,Mavic Pro在與地面端失去聯(lián)系或低電量情況下將自動(dòng)返航,并加入全新的“精準(zhǔn)降落”功能:兩臺(tái)下視相機(jī)會(huì)在每次起飛時(shí)拍攝一組照片,在返航著落過程中通過對(duì)下視觀測(cè)和起飛記錄照片的匹配來實(shí)現(xiàn)厘米級(jí)別的精準(zhǔn)降落。

Mavic Pro精準(zhǔn)降落是用到了SLAM中的回環(huán)檢測(cè)技術(shù),飛行過程中會(huì)記錄視覺傳感器看到的圖像信息,并且根據(jù)這些信息來進(jìn)行精準(zhǔn)降落。也就是說,它降落的時(shí)候,一直在和當(dāng)時(shí)起飛的時(shí)候所看到的圖像進(jìn)行對(duì)比,并且持續(xù)調(diào)整自己的方向。并且最近Mavic Pro的升級(jí)更新,據(jù)說增加了識(shí)別地面是否平整,以及地面是否是水面的功能,從而很大程度提高了降落的安全性??梢钥闯龃蠼畬?duì)用戶體驗(yàn)的重視以及對(duì)產(chǎn)品精益求精的追求。

“史上最智能無人機(jī)”背后是大疆的成功轉(zhuǎn)型

Mavic Pro發(fā)布之時(shí),大疆用了“史上最智能無人機(jī)”來概括這些新增功能,而關(guān)于更多的細(xì)節(jié)部分則甚少提及。因此,也很少人注意到,這些功能背后是大疆早已默默地從一家“飛行相機(jī)”企業(yè)成功轉(zhuǎn)型為機(jī)器人企業(yè)。

其實(shí)早在今年3月,大疆創(chuàng)始人汪滔曾以“歡迎來到計(jì)算機(jī)視覺時(shí)代”一語點(diǎn)出了Phantom 4的核心所在,同時(shí),大疆默默把自己的描述從以前的”Flying Camera” 變?yōu)榱?rdquo;Flying Robot”。Phantom 4面世所帶來的意義,即"機(jī)器視覺時(shí)代”的到來,以往幾十年全世界人對(duì)于計(jì)算機(jī)視覺的期待僅僅停留在論文和實(shí)驗(yàn)室以及有限的工業(yè)場(chǎng)景中,而現(xiàn)在,計(jì)算機(jī)視覺以一種更好玩、更動(dòng)感、更直接的表現(xiàn)形式回來了,讓大眾消費(fèi)者都能感受到它帶來的便利。而這一切,都源自大疆過去兩年中在計(jì)算機(jī)視覺上所做的準(zhǔn)備。

圖片來自大疆官網(wǎng)

計(jì)算機(jī)視覺的結(jié)果要轉(zhuǎn)化為輔助控制做決策的過程中,要能結(jié)合各個(gè)模塊傳感器做出實(shí)際可用的應(yīng)用,要涉及到相機(jī)、云臺(tái)、IMU慣導(dǎo)模塊、氣壓計(jì)、GPS、超聲波、前視雙目、下視雙目以及視覺里程計(jì)等非常多和復(fù)雜的模塊。成熟的SDK架構(gòu)也貢獻(xiàn)很大,大疆的無人機(jī)和飛控都有一套非常規(guī)整的SDK(軟件開發(fā)套件)提供API給第三方開發(fā)者使用。

大疆還主辦各類飛行器及機(jī)器人比賽,從與福特汽車合作的SDK開發(fā)者大賽,任務(wù)是依靠目標(biāo)識(shí)別進(jìn)行無人機(jī)的移動(dòng)汽車平臺(tái)降落,到堪稱最炫酷機(jī)器人比賽的全國(guó)大學(xué)生RoboMasters中的敵方機(jī)器人識(shí)別和自動(dòng)瞄準(zhǔn),各個(gè)比賽中的視覺功能所占比例也是重中之重,而底層完善的SDK支持都是開發(fā)者效率的保障。

Robomasters中機(jī)器人正在利用計(jì)算機(jī)視覺技術(shù)對(duì)面板上的圖案進(jìn)行識(shí)別并選擇正確的圖案攻擊

大疆籌辦這類比賽一方面是對(duì)社會(huì)人才培養(yǎng)的回饋和貢獻(xiàn),另一方面更多也是為了人才儲(chǔ)備,因?yàn)橼A得比賽往往意味著贏得一張去大疆工作的Offer,為大疆源源不斷地輸送計(jì)算機(jī)視覺和控制類的頂尖人才。

另外,雖然大疆在業(yè)內(nèi)一向很低調(diào),不過在各大學(xué)術(shù)會(huì)議中則是積極者。CVPR是計(jì)算機(jī)視覺領(lǐng)域中最頂級(jí)的會(huì)議,在今年6月末開啟的CVPR 2016上,大疆作為重要贊助商出現(xiàn)在了CVPR的會(huì)場(chǎng),其參展的展位就在Apple、Intel、Microsoft和Google中間,而且還對(duì)與會(huì)的研究人員們做了演講。

可以說,就在其他無人機(jī)企業(yè)還在尋找哪個(gè)方向才是正道時(shí),大疆早就明確要走哪條路并且知道要干什么。今年大量小型無人機(jī)出現(xiàn)在市面上,很大原因是大家以為大疆不會(huì)做小型無人機(jī),而Mavic Pro出來后,他們又將面臨曾經(jīng)跟精靈系列正面競(jìng)爭(zhēng)的相似局面。而對(duì)于大疆來說,做大無人機(jī)還是小無人機(jī),或是說做航拍無人機(jī)還是自拍無人機(jī),這些并不是最重要的,只要掌握了最核心的技術(shù),做什么樣的無人機(jī)只是一個(gè)選擇而已。

還記得2015年11月大疆與美劇神盾局特工主演汪可盈合作拍攝的Phantom X概念視頻嗎?里面汪可盈用優(yōu)美的太極動(dòng)作來控制無人機(jī)在空中作畫。如今也不過一年時(shí)間,當(dāng)時(shí)覺著天方夜譚的場(chǎng)景,現(xiàn)在再看看Mavic Pro是不是覺得很近了呢?

“其實(shí),Mavic最核心的地方在于計(jì)算機(jī)視覺”,Mavic Pro發(fā)布后大疆的一名視覺工程師如此向雷鋒網(wǎng)強(qiáng)調(diào)著,彼時(shí)大家對(duì)于這款在很多方面都超越Phantom 4的無人機(jī)更多的討論還是圍繞在便攜和巧妙的工業(yè)設(shè)計(jì)上,而作為其中的參與者,Mavic Pro新增的智能功能才是讓他最為興奮的。按照公開資料來看,這些新增的智能功能讓Mavic Pro算得上是全球首款基于深度學(xué)習(xí)的消費(fèi)級(jí)無人機(jī)。

首先我們將Mavic Pro與Phantom 4對(duì)比一下,Mavic Pro新增了哪些智能功能:1. 手勢(shì)自拍;2. 物體識(shí)別;3. 視覺跟隨中的平行跟隨、焦點(diǎn)跟隨、 自動(dòng)環(huán)繞;4.精準(zhǔn)降落。

這里面每一個(gè)功能的背后,都是在試圖解決計(jì)算機(jī)視覺和機(jī)器人學(xué)領(lǐng)域里最核心也是最頭疼的難題,同時(shí)也是大疆隱藏最深的秘密。

手勢(shì)自拍

如今很多小型無人機(jī)都自稱自拍無人機(jī),不過其實(shí)都是屬于跟拍,通過跟蹤人或人臉來實(shí)現(xiàn)拍攝,大疆在今年3月的Phantom 4已經(jīng)實(shí)現(xiàn)過,如今包括正火的Hover Camera等無人機(jī)也都實(shí)現(xiàn)了這一功能。而Mavic Pro則是實(shí)實(shí)在在地實(shí)現(xiàn)了脫離遙控器的自拍,也就是通過手勢(shì)來進(jìn)行抓拍。

當(dāng)你走到畫面里,Mavic Pro會(huì)自己識(shí)別移動(dòng)的人,并且你可以向它揮手讓它來跟著你飛行,在跟蹤過程中只要做出拍照手勢(shì),它就會(huì)幫你抓拍。如此一來,你就能在拍照過程中完全將遙控器放收在包里。并且即使跟蹤丟失時(shí),也可以在不需要遙控器的幫助時(shí),重新走回畫面中,讓飛機(jī)繼續(xù)跟隨。值得一提的是,當(dāng)開啟GPS輔助時(shí),飛機(jī)會(huì)融合GPS的信息來進(jìn)行矯正。

對(duì)于一般的手勢(shì)識(shí)別系統(tǒng)而言,整體的步驟大概分為三步,也就是手部的定位、建模和識(shí)別。手部建?,F(xiàn)在主要有兩種方法,2D和3D,主要是看使用了什么樣的攝像頭,建模好后最后再進(jìn)行識(shí)別,比如你的手是張開的還是握拳的。據(jù)悉從這個(gè)3D手部模型到手勢(shì)識(shí)別是有不同的方法的,有的是直接拿3D手部模型去識(shí)別,有的是把3D模型轉(zhuǎn)化成2D圖像,再在這個(gè)基礎(chǔ)上利用深度學(xué)習(xí)進(jìn)行分類識(shí)別。目前在室內(nèi)環(huán)境中,由于距離較近,手勢(shì)識(shí)別的難度并不大,像微軟的Kinect就在電視游戲上得到很好的應(yīng)用。但在戶外的場(chǎng)景下,在無人機(jī)上用這種攝像頭遠(yuǎn)距離識(shí)別手勢(shì),大疆應(yīng)該算是首個(gè)嘗試的。

Mavic Pro并沒有使用3D攝像頭,而是通過2D主相機(jī)來進(jìn)行識(shí)別的,其難度要比使用3D攝像頭大很多。首先,飛機(jī)要在沒有深度信息的前提下準(zhǔn)確地識(shí)別和定位畫面中的人,其次,要完成一系列手部的定位、建模和動(dòng)作的識(shí)別。

Mavic Pro據(jù)稱使用的是深度學(xué)習(xí),而深度學(xué)習(xí)對(duì)于計(jì)算設(shè)備有較高要求,一般研究者需要NVIDIA Titan X這類GPU才能實(shí)現(xiàn)。Titan X舊版的處理性能大概在6T的Flops(每秒計(jì)算的浮點(diǎn)數(shù)),而大疆使用的是聯(lián)芯LC 1860,官方給出的總處理能力在8GFlops,相差大概700倍,在這么低的處理平臺(tái)上做深度學(xué)習(xí),就面臨著神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)上的突破,訓(xùn)練的技巧,模型的精簡(jiǎn)與壓縮,底層實(shí)現(xiàn)的優(yōu)化等問題。

關(guān)于Mavic Pro的手勢(shì)自拍,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))在體驗(yàn)過程中的感受是,反應(yīng)還比較及時(shí),大多數(shù)情況都能做到準(zhǔn)確識(shí)別,功能方面比較好。體驗(yàn)方面,閃爍燈提示在陽光下比較弱,閃爍3秒后開始拍照,如果倒計(jì)時(shí)開始時(shí)加個(gè)聲音提示可能會(huì)更好。

物體的檢測(cè)和識(shí)別

物體的識(shí)別,是指對(duì)于畫面中的主體進(jìn)行分類判定。其分類方式既可以是粗粒度的類別(比如汽車),也可以細(xì)粒度的類別(比如奔馳C200、寶馬X5)。物體的檢測(cè),是指在畫面中自動(dòng)找出感興趣物體,并標(biāo)出它們的輪廓。全世界著名的ImageNet競(jìng)賽,比拼的就是物體識(shí)別和檢測(cè)的準(zhǔn)確性。

Phantom 4的智能跟隨功能的一個(gè)痛點(diǎn)是需要用戶手動(dòng)在屏幕上框出要跟隨的目標(biāo),而由于小白用戶常常難以做到,尤其當(dāng)目標(biāo)在運(yùn)動(dòng)中。一方面會(huì)因?yàn)榭虻牟粶?zhǔn)確,而造成智能跟隨表現(xiàn)不理想,另一方面對(duì)于正在運(yùn)動(dòng)中的物體,很難框中。而物體檢測(cè)和識(shí)別技術(shù),可以讓用戶實(shí)現(xiàn)即點(diǎn)即走,讓智能跟隨的體驗(yàn)有了質(zhì)的提升。這次Mavic Pro可以自動(dòng)檢測(cè)識(shí)別多種常見物體(人、汽車、卡車、動(dòng)物、船、人騎自行車或摩托車等),并號(hào)稱其跟隨的動(dòng)作會(huì)根據(jù)不同的物體有相應(yīng)的優(yōu)化。

Mavic Pro對(duì)人的跟隨,圖片來自網(wǎng)絡(luò)體驗(yàn)視頻

Mavic Pro對(duì)船的跟隨,圖片來自網(wǎng)絡(luò)體驗(yàn)視頻

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2016-11-07
關(guān)于大疆Mavic Pro 還有哪些技術(shù)秘密你不知道?
“其實(shí),Mavic最核心的地方在于計(jì)算機(jī)視覺”,Mavic Pro發(fā)布后大疆的一名視覺工程師如此向雷鋒網(wǎng)強(qiáng)調(diào)著,彼時(shí)大家對(duì)于這款在很多方面都超越Phantom

長(zhǎng)按掃碼 閱讀全文