極客網(wǎng)6月24日消息,今天,由汽車創(chuàng)新港、NewCar??W(wǎng)主辦的“預(yù)見未來:人工智能和自動駕駛技術(shù)論壇”在上海盛大舉行,論壇圍繞人工智能在自動駕駛汽車領(lǐng)域的應(yīng)用實踐這一話題,深入探討駕駛輔助、自動駕駛、高精度地圖、環(huán)境感知、語音識別、軟件系統(tǒng)等技術(shù)難點和重點。極客網(wǎng)作為合作支持媒體,將為您帶來全程報道。
論壇邀請了沃爾沃汽車智能駕駛事業(yè)部高級經(jīng)理張立存博士、地平線機器人智能駕駛業(yè)務(wù)總監(jiān)李星宇,亞太機電智能網(wǎng)聯(lián)事業(yè)部 技術(shù)總監(jiān)梁濤年博士,QNX大中華區(qū)總經(jīng)理張人杰,吉利汽車主動安全科經(jīng)理李博博士,閱面科技創(chuàng)始人(前阿里巴巴算法總監(jiān))趙京雷博士,慧眼科技 CEO(Imprezzeo創(chuàng)始人)單霆博士,上海傲碩信息科技總經(jīng)理鄭天堂先生,中科慧眼創(chuàng)始人副總經(jīng)理孟然先生做主題分享。
第二位出場演講的是中科慧眼創(chuàng)始人副總經(jīng)理孟然,他演講的題目是《為智能汽車植入眼睛和大腦》。
以下是演講速記整理內(nèi)容:
有請孟然先生給大家介紹“為智能汽車植入大腦和眼睛”,他是中科慧眼有限科技公司創(chuàng)始人副總經(jīng)理。
孟然:大家好,剛才張博士講得我覺得有很多東西對我很有幫助,因為前兩天參加一個會議,我記得還有人跟我講,他問我,你覺得多少年能夠?qū)崿F(xiàn)自動駕駛,我哆哆嗦嗦告訴他可能會有十年,因為我怕說得太長會影響到大家對這個行業(yè)的積極性和興奮點,但是剛才張博士說得很好,就是我內(nèi)心真正想的,可能在有生之年我們能看到完全的自動駕駛出現(xiàn),我感覺就很不錯了。
我先自我介紹一下,我們是一個民營企業(yè),也是一個創(chuàng)業(yè)不久的企業(yè),現(xiàn)在融資走到第二輪。中科慧眼是中科院和豐田汽車從日本回來的一個團隊,現(xiàn)在做的不是完全的自動駕駛,而是大多數(shù)集中在感知,在感知上,我們用的是雙目的方案,今天我在做這個介紹的時候,我想側(cè)重點還是在用視覺的方式解決感知問題,我想講一些純技術(shù)的問題。
在講之前請大家先看一段視頻,看一看用是覺得方式怎么樣解決在感知的時候所遇到的一些問題。
(播放視頻)這個東西可以叫它運動估計,它是怎么做,究竟有什么用處,我給大家講一下。大家知道我們視覺上,用在汽車上我們的處理器,哪怕是SOC,一般到30幀、40幀是頂級的,做碰撞預(yù)警并不是簡單對一個目標的距離或者碰撞時間的預(yù)警,一定是對這個目標進行追蹤,那么把我與它的距離,把我與它的每一個碰撞時間連成一個曲線,這樣去預(yù)測下一個什么時間我會撞上它,而不是兩個點或者三個點去預(yù)測一個目標。我們在預(yù)測它的時候,就要對它進行跟蹤,大家知道我們現(xiàn)在的30幀去跟蹤一個飛快速度的目標是跟蹤不了的,如果我以100公里的速度往前進,這個時候有一個小孩跑進來,這個時候我不知道他是同一個目標,這個時候怎么辦?我們就要在原有基礎(chǔ)上對這個目標進行一個分析,分析完以后對它進行跟蹤。這個圖像說的就是什么呢?我從一個15幀的視頻把它變成30幀,這里面用的就是對比。原有視頻每一個點做估計,估計完以后形成新的點,所有新的點組成一個圖像,把這個圖像插到兩幀圖像里面組成一個30幀的圖像,就是大伙看到的連續(xù)的效果,這是在視頻感知里頭做目標跟蹤。
大家知道做視頻檢測,第一個問題要解決的是雨霧天,大家知道激光雷達對雨霧的穿透能力有限。視頻,大雨大霧能不能搞定?視頻在技術(shù)上可以做一定程度的減輕,也就是說,就是大家看到的去霧的效果。
這是防抖功能,用軟件和算法做的一個防抖。防抖并不是沒抖,沒抖叫失真,防抖是去掉高頻。這是在汽車上必須要做的,如果不做的話會很麻煩。
這是低光功能增強,我們選用三色的時候,本身要對低光有一個很好的范圍,但是在軟件里面就除此之外,硬件解決完了之后在軟件里面也要有一個增強。
這個東西就是對于雙目攝像頭來講,里面一些中間層的數(shù)據(jù),它需要大家做演示和分析。這里面是雙目視頻里面的左眼,右眼跟它也是差不多,左右眼差不多,這是一個生成的深度的數(shù)據(jù)。就是與前方障礙物的距離,測距離干嗎?它跟單目不一樣,雙目是先測距離,先算碰撞距離,一系列的點要對一個目標進行跟蹤,所有的數(shù)據(jù)勾勒出來以后預(yù)測下一個點在哪兒,從而發(fā)生預(yù)警,這個是雙目與單目的區(qū)別,雙目是直接測距預(yù)測碰撞的時間,而單目不用測距,而是做識別,識別完以后直接預(yù)測碰撞時間。
回到PPT,剛才張博士的觀點我非常同意,完全的自動駕駛一定是多傳感器做融合,單純的視覺不管是雙目還是單目,都不可以做自動駕駛,這樣的話風(fēng)險太大了。所以一個完全的自動駕駛,一定是多個尖端傳感器,每一個傳感器都做到最優(yōu)時候進行的一個融合,我今天只講雙目感知。
這是我們公司的情況,前期肯定是把雙目用在ADAS上,當然整個的自動駕駛的路線肯定是從感知到?jīng)Q策,再到控制。當然后面還有一個聯(lián)網(wǎng),可以說它是分三步或者是分四步,我們的團隊以前在日本豐田也是做自動駕駛的,當然我們的技術(shù)專長還是在雙目的感知上。所以我們回國以后還是把很多的信息都給它砍掉了。
以前會對比所有傳感器的優(yōu)缺點,現(xiàn)在由于時間關(guān)系我最終只講視覺部分,雷達不講了,雷達目前為止,價格并不是最大的問題,最大的問題應(yīng)該還是性能,性能包括探測距離、探測角度以及敏感強度,比如對黑顏色的金屬,對重物體的敏感程度,而視頻的方式,最起碼是二維的,最低縱向也有480行,遠遠超過64線。
大家都會關(guān)心,究竟是單目好還是雙目好?其實單目和雙目并不是矛盾的,并不是說用單目就不能用雙目,或者說用了雙目就不能用單目。各有優(yōu)缺點,我上次來的時候也有人問我,說視覺攝像頭究竟能看到多少米?對于視覺來講看到多少米跟單目和雙目沒有關(guān)系,是跟鏡頭有關(guān)系的。分辨率確定以后,放大率越高分辨力越高。所以最好的方式是什么?有多組去做,比如說有一組長焦鏡頭關(guān)注遠處,中焦的鏡頭去關(guān)注中等的距離,還有一組近焦的鏡頭關(guān)注近處,這樣的話近處視覺大,中間的視覺居中,遠處的視覺比較窄,但是這樣的話無法走后裝,因為成本比較高。所以我們要是走后裝的話一定要選擇一個恰當?shù)慕咕嗳リP(guān)注中近距的距離,可能要放到100米以外的距離了。
還有一個單目的特點是要先做分類,先做識別,單目一定要做識別,這是常識。如果說一個單目的攝像機不做識別直接測距,這句話本身是不科學(xué)的。也有很多人說Mobileye已經(jīng)做得這么好了為什么要有雙目,Mobileye做得好我當時說了還是有兩個原因,第一個就是Mobileye的識別做得非常好,因為識別的話大家知道,做識別之前應(yīng)該有特征數(shù)據(jù)進來,這個時候需要一個很龐大的數(shù)據(jù)庫,或者用什么方式去做,一定要有一個特征庫,不管什么形式存在的,所以Mobileye的庫是用了十幾年,豐富了十幾年,并且這個庫要保證這個識別量,這個識別率要不斷的迭代和更新,這是它的第一個要素。就是做識別不困難,但是做到極致很困難,這個時候Mobileye的識別應(yīng)該是做到極致了,但是即便是這樣有一些未知的異情是搞不定的,比如說一個三輪車上拉著一只豬,所以這個時候沒有辦法做車輛的識別,所以你把這個特征加進去沒有用,豬的身上還騎著一只羊怎么樣,這個東西是舉不勝舉的。比如正規(guī)車廠做出來的汽車,正規(guī)車廠做出來的摩托車、行人這個東西識別是沒有問題的,我們做過很多行人姿態(tài)、車輛姿態(tài)基本上都是可以搞定的,比如說一個抱小孩的婦女,或者攙扶著一個老人,Mobileye都可以識別出來,但是不能故意搞一些怪異的姿勢。當然對于魚和豬肯定就搞不定,如果能夠搞定就不科學(xué)了,所以這是單目,一個是識別做得好,再一個就是目前里面單目的算法我相信不是一種,因為我們也在靜態(tài)的時候、拐彎的時候,低速、高速的時候分別去研究過它的算法,它應(yīng)該是有幾套路子去走。對于單目來講達到這種水平還是非常值得尊敬的,如果我們做單目算法的話,估計用幾年是絕對趕不上它的性能,所以我們沒有辦法,只能彎道超車了。
大家知道雙目是不需要做識別的,它是根據(jù)一個視察去反推具體,反推的距離可以非常精確,因為可以一一對比,如果成像和標定足夠好是可以精確測距的。
這個是大黃蜂,在世界上僅有的幾個雙目相機也非常不多,就這么一兩款,我們能夠在實驗的時候買到的,我們前期的實驗還是在用它。這個東西是2萬人民幣,后來我拆開看了它確實值2萬,因為雙目有一個極大的問題,就是保證兩個攝像頭完全的不變,相對的位置完全都不變,但是世界上有一個完全向?qū)Σ蛔兊奈恢脝??尤其是高溫、低溫一定有熱脹冷縮。它這殼子是一次成型的鑄造,鑄造完以后把鏡頭放在了鋼鐵上,這個鋼比較厚,有幾十個厘米,這樣的話可以把它的型變在熱脹冷縮發(fā)生的時候降低到最低,稍微有一點型變怎么辦,我不知道它的方式是怎么做的。這個東西并不是用于汽車,用于室內(nèi)的車輛,所以有一些誤差是沒有關(guān)系的。
雙目相機怎么來做?雙目相機在世界上沒有這個東西,最起碼在世界上沒有用于交通方面的雙目相機,本身雙目相機就比較少,我們第一個要解決的就是同步曝光且參數(shù)一致,如果不同步曝光左右相機肯定不是一個場景,這個東西用鏈路可以搞得定,但是有一個問題來了,就是曝光參數(shù),我們知道所有的相機都是自適應(yīng)的,都是自動調(diào)焦。這些參數(shù)會導(dǎo)致兩個差異,進而會導(dǎo)致所有兩個圖像的匹配。你自己開發(fā)一個SP,去算曝光參數(shù),分配給兩三個去使用。Sensor位置固定,當然高動態(tài)是一個最基本的要求,但是大家注意高動態(tài)必然導(dǎo)致信息的丟失,信息的丟失必然導(dǎo)致左右圖像的適配,所以這個東西要做一個權(quán)衡。還有就是Sensor位置要絕對的固定,它采用的是一體化成型,直接鑄造的方式,如果我們這么鑄造的話,這個相機的成本估計也在萬元以上,所以我們很明顯不能這么干。怎么辦?我們只能用軟件的方式。還有一個東西就是散熱。
對于雙目算法來講,什么叫好,什么叫不好?大家看看這個東西,用顏色去反映一個角度的距離,在它暖色調(diào)的時候代表距離近,冷色調(diào)代表距離很遠,我不希望出現(xiàn)這些東西。這些東西是什么東西呢?這些東西是在你采圖的時候,采到的這些場景在左右的圖像上不一致,因為不一致,或者說其他的原因?qū)е伦笥覉D像的失配,就是說沒有配上沒有配準,沒有配準這一塊就沒有距離的信息,沒有距離的信息可以空著也可以隨機,隨機就會產(chǎn)生危險,所以我不希望有這些沒有配上的地方,我希望它是一個平滑的東西,是一個全部可以匹配的東西,這是我對算法的第一個要求。
這是我們現(xiàn)在所做到的效果做的一個比對,跟網(wǎng)上一些算法的對比。
這是一個實景與一個距離之間1:1點對點的一個對比圖。雙目相機拍攝到的景物實時狀況和距離,從而實現(xiàn)碰撞預(yù)警ADAS功能。它對一個障礙物的檢測實際上是二維的,它的可靠性在正常情況下是非常高的,而不是一條線或者幾條線組成的,是由一個二維的東西組成一個障礙物。當然對于雙目來講并不知道這個障礙物是什么,只知道在我的車前有一個障礙物。當然你可以去做識別,預(yù)警并不要求你進行識別,但是你想知道它是什么你可以做識別,因為畢竟圖像在這兒。但是作為預(yù)警來講,對于碰撞來講,它不是必要的,但是你可以去做的。
我希望看到的里面測量的這些東西是這樣的,而不是有漏洞的。這是一些典型的算法,SGBM、ELAS,這兩種算法在雙目算法里面是經(jīng)常會用到的一些主流算法。剛才講的我需要平滑,第二個我希望這些小的物體能夠出來,就是前面的電線桿還有樹,如果出不來也會導(dǎo)致我的一些危險,當然地上的一些小的石頭,希望這些景物可以在我的計算里面出來。
第三個是效率,我們在豐田用的是服務(wù)器來做,如果前期做后裝,后期再做前裝,做后裝的情況下用服務(wù)器就有點搞笑了,但是我希望算法快。為什么呢?因為大家可以算筆帳,如果每小時的時速是120公里,如果每秒鐘15幀率,是每走2.22米探測一次,在這個步長之間有可能探出來一個東西可能會跟它進行碰撞,因為所有的探測都是有一個頻率的,只不過這個頻率是很高罷了,所有的探測都不是連續(xù)的,我們希望這個頻率做得越高越好。在面臨這么高的一個算法效率是必須要考慮的一個問題,而不光是效果。前面講的是效果,現(xiàn)在講的是效率。所以我們把這個探測分兩個階段,第一個用GPU+GUDA的方式解決,第二個用ARM+FPGA的方式解決,30幀不足以對目標進行跟蹤,一個目標的跟蹤我想最起碼要加倍,甚至幾倍,后面用視頻的方式只能對點進行適量的計算。我們對所有的目標估計效果還是非常準確的,沒有出現(xiàn)什么問題。因為我們在路上是快速移動,對于一個目標移動中,30幀的頻率不足以能夠支撐。
對于用戶來講有一個好處就是不需要標定,標定是在工廠完成的,而不是在車里完成的。雙目的間距不變就無需標定,當然這個標定工作是在工廠進行的。
由于時間的關(guān)系,我就給大家分享到這里,大家有問題我們可以直接交流,交流到技術(shù)上也沒有問題。
提問:剛才你說的雙目識別的障礙物的算法,我有點不明白,它為什么不是識別一個具體的物品遠近,而是按照熱力圖的方式,這個原理能不能講更明白一點?
孟然:這不是一個熱力圖也不是一個熱圖像,我在屏幕上如果寫一堆數(shù)的話,你就沒法看了,就是為了看得方便,所以我用顏色代表遠近。為什么雙目不做識別?雙目就像咱們看3D電影一樣,為什么看3D電影的時候能夠看出來遠近,是因為你戴著一個眼鏡,這個眼鏡實際上在是分光。就是立體電影是用雙目攝像頭拍的,一個左一個右,你戴的眼鏡是把左邊攝像頭拍的圖像唯一的投射到你的左眼,而把右邊拍攝的圖像唯一投射到你的右眼,分工完以后因為兩個點接觸的圖像大致相同,但是又存在視差,你可以自己做一個實驗,你會發(fā)現(xiàn)兩個眼睛對于同一個目標是在左右晃動的,而這個晃動的東西我們叫視差,這個視差越大這個東西離你越近,視察越小離你越遠。比如你看那個柱子跟看這個杯子在左右眼睛的視差是不一樣的,近的時候視差很大,遠的時候視差很小。如果在分辨率、焦距所有都固定的情況下視差是唯一對應(yīng)你的距離的。它不是對具體某個物體,而是對它相機里面所有的場景和所有的點,因為所有的場景和所有的點在雙目相機里都存在一個視察,每一個點都有一個視察,所以每一個點都有一個距離,這樣二維場景里的距離也就出來了。
提問:剛才你提到雙目攝像頭里面30幀/秒的頻率可能還不夠,提高幀率的話,是想通過通過加幀,加到60幀或者加到更高,是這個意思嗎?
孟然:不是,用芯片的方式去處理這個問題,30幀或者40幀是封頂了,目前的硬件是封頂了。目前來講做到30幀已經(jīng)很不錯,因為不光是芯片的處理能力還有數(shù)據(jù)通路,比如你用任何一種傳遞視頻的方式都有一個封頂,數(shù)據(jù)量非常大。封頂以后你說我的Sensor可以達到60幀,沒有用,后面處理不過來,芯片處理不過來,數(shù)據(jù)通度不允許。還有就是有各種各樣的限制,這個時候怎么辦?我覺得目前做到30幀已經(jīng)非常完美了,但是這個時候怎么辦呢?我們?nèi)y距沒有問題,就像你一邊跑一邊眨眼,你的眨眼頻率是30秒眨30次沒有問題,但是對于目標跟蹤來講30次遠遠不夠,因為可能會快速的移動,蛇形的運動,30次可能會丟了這個目標,而你測這個目標的時候用一兩個點的數(shù)據(jù)去估算下一秒鐘的碰撞時間是不科學(xué)的,我是指對于一個東西你要進行連續(xù)的跟蹤,你去預(yù)測我什么時候去與它進行碰撞是比較靠譜的。而對于你只采集了一個目標的幾個點去預(yù)測下一個點的碰撞時間是不科學(xué)的,所以我希望連續(xù)的進行跟蹤,當然即便是60幀也有可能會丟失這個目標的跟蹤,也有可能。但是它只是會大大降低丟失的概率罷了,而維護一個目標,我會隨著你的移動會抓著你,把所有對于你的距離、時間探測勾勒出一個曲線來,從而預(yù)測下一秒我與你的碰撞時間,完全是為了預(yù)測碰撞時間的準確性,才會去對于目標進行跟蹤,而并不單純是一幀一幀只是測距罷了。
提問:我想問的就是,因為你要對這個目標進行跟蹤的話,勢必會用到前面的圖像,如果真的是在一個很短的時間里面沖出來一個人,可能還沒有對它進行跟蹤,這個事故可能已經(jīng)發(fā)生了,可能30幀再去做跟蹤達到的效果可能只有10幀。
孟然:你說得沒錯,對于目標進行追蹤的目的并不是解決突然間跑出來一個人的問題,而是解決我與前方的物體碰撞時間的預(yù)測更加的精確,我對這個時間的預(yù)測更加精確,因為我是用一系列點的軌跡去預(yù)測,預(yù)測更加的精準。但是沖出來一個人,完全就得靠幀頻,如果我走1.1米探測一次,你這個人正好在中間沖出來的話那沒辦法,所以只能單純的提高頻率。
提問:關(guān)于Sensor傳感器的分辨率,分辨率現(xiàn)在是以什么樣的分辨率?
孟然:分辨率這個問題,1280P都可以。
提問:可不可以降低分辨率提高效率?
孟然:但是效果會差,效果差,效率一定會提升,沒有問題。
提問:Sensor接口是以什么為主?
孟然:這就是純技術(shù)問題了,我們現(xiàn)在這個接口是我們自己開發(fā)的一個接口,私有的接口。
提問:我的問題有三個,第一個我想就算法來說,因為我現(xiàn)在在做靜態(tài)的雙目視覺的立體匹配,您剛才提到算法的匹配度,表現(xiàn)出來的偽色彩度有一些誤匹配率,你們怎么解決這個物匹配率的問題?
孟然:這個問題我們下面私下討論。
提問:我的問題是,可不可以這樣理解,雙目攝像頭現(xiàn)在價格還是偏高的,還有芯片和硬件成本。相比市場很多做單目攝像頭的,也是定位于后裝,優(yōu)勢在哪里,未來的市場怎么去競爭?
孟然:單目和雙目各有各的優(yōu)勢和各有各的特點,雙目肯定比單目貴,這是毋庸置疑的。因為東西就用了人家的兩倍,這是毋庸置疑的。我不敢說雙目有什么優(yōu)勢,我只是說它的特點,它的特點是無需識別,這是第一個特點,視察直接轉(zhuǎn)變?yōu)榫嚯x,可以對所有的障礙物進行測量,比如桌子放在高速公路上也是障礙物,不用識別。而對于單目,比如一個桌子拿車往上撞你看它會不會報警,因為在中國的道路上一切皆有可能,所以這個東西是不是它的優(yōu)勢,你可以自己分析一下,這是第一個。
第二個,它或許在某一個距離范圍內(nèi),它的測距精度要準確一點,我不敢說雙目一定要比單目準確,但是在某一個距離范圍內(nèi)或許測量的定位,因為是直接測量而不是估算的,通過視察映射到這個上面,并不存在什么估計,就是視察準確了距離就準確了,這個距離是相當準確的,甚至比人眼還要準確,所以它或許體驗會做得很好,因為距離預(yù)測準、碰撞時間預(yù)測準就不會出現(xiàn)“狼來了”,不會出現(xiàn)多報或者少報的情況。
謝謝大家。
(該演講內(nèi)容全部由現(xiàn)場速記內(nèi)容整理,若有錯誤之處敬請諒解)
- 首屆王朝盛典舉行:華夏風(fēng)韻與未來科技并行,品牌文化與科技完美對話
- 2025首屆王朝盛典舉行:定義國潮美學(xué),悅享朝粉盛宴
- 比亞迪盛世旗艦漢L唐L全新設(shè)計正式揭幕,龍顏美學(xué)全面進化
- 日本2024年EV銷量:比亞迪超越豐田,同比大增54%
- 京西集團第四代MagneRide?磁流變懸架國產(chǎn),磁流變元年啟航
- 2024年中國新能源車銷量首次突破1200萬輛,連續(xù)十年居全球第一
- 煥新Model Y上線,國內(nèi)車企何以應(yīng)對?
- 特斯拉在美召回約23.9萬輛電動汽車,存在后視攝像頭故障
- 特朗普說上臺后要加關(guān)稅 汽車供應(yīng)商在考慮生產(chǎn)搬遷
- 何小鵬回應(yīng)特斯拉煥新 Model Y“撞臉小鵬” :好的設(shè)計總是心有靈犀
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。