2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(深圳)承辦,得到了寶安區(qū)政府的大力指導,是國內(nèi)人工智能和機器人學術界、工業(yè)界及投資界三大領域的頂級交流盛會,旨在打造國內(nèi)人工智能領域最具實力的跨界交流合作平臺。
6月30日,2018 全球人工智能與機器人峰會(CCF-GAIR)繼續(xù)進行。在上午的計算機視覺專場中,臻識科技聯(lián)合創(chuàng)始人兼CEO任鵬發(fā)展了主題為《邊緣計算賦能智慧城市》的主題演講。
依托自身在嵌入式成像系統(tǒng)設計技術上的優(yōu)勢經(jīng)驗以及多年在AI算法的耕耘積累,通過邊緣計算技術的產(chǎn)品轉化(智能相機),臻識科技致力于為智慧城市體系中的各大垂直應用領域:智能交通(ITS)、智能安防(IVS)、智慧商業(yè)、智能制造(FA)提供更加智能化的前端成像設備及解決方案。
在演講中,任鵬介紹了臻識科技的智能相機。什么是全智能相機?任鵬認為,不同行業(yè)對于智能相機的要求多種多樣,滿足一個場景應用感知需要的相機才是全智能的相機。為了能夠打造全智能相機,這其中也會遇到很多的困難,任鵬概括為成像、算法、制造三大方面。
在成像方面,任鵬認為,比較難的問題是智能相機的成像評測缺乏標準,但是成像一定要滿足算法的需要,其次再來滿足人的感官需要。
在算法方面,臻識科技的做法是先明確需求,確定數(shù)據(jù)集、性能指標、成本指標,同時進行嵌入式平臺的方案選型和評估,接下來進行PC的仿真、算法的實現(xiàn),最后是嵌入式平臺的移植優(yōu)化以及算法落地。
在制造方面,臻識科技通過視覺和控制的結合,用“智能”制造“智能相機”?,F(xiàn)在,臻識科技的相機生產(chǎn)線上已經(jīng)實現(xiàn)部分自動化,任鵬表示,今后將會在這方面繼續(xù)投入精力。
以下為任鵬的現(xiàn)場演講文稿,
任鵬:大家上午好!今天主要跟大家探討我們在做一款智能相機的過程中碰到的困難以及嘗試。
我們的產(chǎn)品很簡單,就是智能相機??赡茉谧亩加眠^我們的產(chǎn)品。我們的產(chǎn)品雖然很小,但是分布在整個城市的各個區(qū)域,改善了人們停車的體驗,讓整個停車的過程變得更加便捷,這也符合智慧城市的理念,就是以人為本。
但是如何從一個概念變成落地的東西呢?這就需要感知能力的提升,這也就有了云計算和邊緣計算的概念。前端的智能相機是邊緣計算里面的一個重要存在。
什么才是智能相機呢?有一個提法是我們的相機在不同的場景里都可以用,在我們的理解里,這可能是理想的狀態(tài),它并不符合整個行業(yè)路徑發(fā)展的需要。
比如說在智能交通領域,停車場需要的相機是什么樣的?它可能需要對車輛身份接近99.9%的準確度,因為它涉及到支付,所以對識別率的要求比較高,對車速限制比較高??趧t相反,對識別率的要求要低一點,而對車速限制比較低。對交通的流量控制、信號燈的規(guī)劃等等,這些領域?qū)囕v的識別又有另外的需求。所以單從交通領域,它就已經(jīng)細分出很多場景。
再比如說安防領域,像平安城市、雪亮工程、社區(qū)樓宇、工地、校園、醫(yī)院等等場景,其實每一個場景對于相機的需求是不一樣的。所以我們的定義里面,滿足一個場景應用感知需要的相機才是全智能的相機,這里的感知主要描述的是它能去達到或者超越人的需求。
這里有一個金字塔的描述,最底層是像素,中間層是對象,再上一層是行為。
目前在智慧城市領域,大部分的應用都還停留在中間這一層,就是對象層,而且很多場景里面底層的應用(像素層)問題都還沒有完全解決。以前面幾位嘉賓舉的例子來說,比如說一個人臉前端抓拍、云端識別的應用,如果我們前端抓到了人臉,它是不清楚的、模糊的,其實對這個系統(tǒng)的識別是非常有壓力的。比如說有的應用是前端的人臉識別,云端根據(jù)識別的結果再來做決策,如果前端的識別老是出問題、有誤報,也會影響整個智慧城市運作的效率以及決策的準確度。
當然要實現(xiàn)這樣一個全智能的相機有很多難點,從我們的經(jīng)驗出發(fā),從下面三個點展開:成像、算法、制造。
成像方面,比較難的問題是智能相機的成像評測是沒有標準的,如果有標準的話,大家工作的方式就是朝這個標準努力,比如說手機相機有一些專業(yè)的評測機構定下了一些標準,安防相機也會有一些指標,比如說解析度、灰階、白平衡等等。但是智能相機的標準是什么呢?我們的成像什么樣才算好的?最后我們定出了一個標準,首先我的成像要滿足算法的需要,其次再來滿足人的感官需要。這是一個很主觀的概念。
在做一款相機的時候,我們先要解決它的硬件、結構、熱設計、光學等等問題,當解決完這些之后,相機的ISP是一個核心的問題,普通場景的ISP的核心是拍照或者攝影時,感知這個場景是什么就可以了,包括最近有一些手機廠家,他們的相機里加入了一些場景的識別功能。目的就是識別場景之后,能選擇一組更適合這個場景的ISP參數(shù),然后讓成像更好。
但是智能相機的目的是把這個場景里我所有關注的物體拍清楚,它基于的東西就是物體,所以智能相機的ISP的核心是基于物體的感知。這又變成了一個是先有雞還是先有蛋的問題。一個場景里只有一個物體還好,但如果有多個物體,對當前很多ISP的架構設計是需要有顛覆性的。
在安防場景下,很多應用需要低快門的實現(xiàn),因為有運動模糊的出現(xiàn),我們要拍出更清晰的目標,所以我們的快門限得比較低,很多時候會限定在5毫秒以下,有的場景甚至會采用全局快門的相機。在這種場景下,我們還要面對場景照度比較低,反差的場景比較大。其實這是很困難的,比如說我站在這里,我看門口,因為有強光打著我,其實我是看不到外面的情況,在相機上也是一樣。
所以我們現(xiàn)在解決這些問題的時候更多地是采用場景的細分、物體的識別,然后再通過經(jīng)驗上的東西指導ISP的設計,以達到理想的效果,這也是一個階段性平衡的效果。
上面一排是同一個場景,不同的相機不同的ISP調(diào)整出來的效果,下面這個是一個寬動態(tài)的場景抓拍的效果,這兩個場景快門都是在5毫秒以下,其實是很有挑戰(zhàn)的。
這是一個人臉抓拍的場景,人臉抓拍識別的難度是很大的。當然剛才曠視和云從都講到了,他們的識別算法很厲害,但是對這種只有20到30像素,不同的光照下、不同姿態(tài)的識別是非常有挑戰(zhàn)的,整個系統(tǒng)的識別率其實并不高。這還是在白天,到了晚上,對這個場景的要求會更高一些。
如果我們的人臉抓拍的相機抓拍到的人臉圖片都像一寸標準證件照的圖片,其實這個識別問題會變得比較簡單。
這上面兩幅圖,大家感覺哪幅圖會好識別一些?可能大家認為是左邊的圖好識一些,確實也是這樣,左邊的圖是我們產(chǎn)品的效果,通過我們的努力,我們在很多場景里面,通過我們相機抓拍的圖片,直接把人臉識別系統(tǒng)的識別率提升了5%到10%。當然我們的相機也是全幀率、全畫幅。
講完了成像,再講講算法。算法不是面對所有場景的不同算法,我今天講的主要是在嵌入式設備上,智能相機的開發(fā)過程中算法要解決的一些問題。
首先是一個基本流程,我們在做智能相機的時候,首先會明確需求,確定數(shù)據(jù)集、性能指標、成本指標,同時我們會做嵌入式平臺的方案選型和評估,接下來我們會做PC的仿真、算法的實現(xiàn),最后才是做嵌入式平臺的移植優(yōu)化以及算法落地,基本上都是這樣的套路。
難點有很多,首先是數(shù)據(jù),數(shù)據(jù)上面我們吃過的虧比較多。舉個例子,當時我們在一款相機產(chǎn)品升級換代的時候,因為傳感器停產(chǎn)了,我們進行了升級,傳感器的變更造成了ISP的變更,最后造成成像風格的變化,最后造成整個系統(tǒng)識別率的下降,其實這也可以理解為是網(wǎng)絡過擬合造成的問題。
數(shù)據(jù)的多樣性、均衡性以及適應場景的能力,以及它和硬件本身傳感器成像的關聯(lián)都是非常關鍵的。我們也提出一個論斷,一個公司本身的數(shù)據(jù)管理水平直接反映了算法水平,也反映了對場景的理解水平。
比如說像學術界的一些測試,數(shù)據(jù)集是定義清楚的,做起來比較容易,但是現(xiàn)實場景里面數(shù)據(jù)集是不確定的,在項目實施過程中它是在不斷變化的,因此也提出了更高的要求。
第二件事是方案選型。我們團隊評測了市面上大概80%的芯片方案,我們對芯片方案的定義做了兩個界定:
一個是要滿足5瓦以下的功耗,功耗太高了不行,它對整個系統(tǒng)的熱設計有很大的挑戰(zhàn)。
第二,我們做的是實時的業(yè)務。今年市面上主流的芯片方案的算力大概是50到150GFLOPS,到明年我們預估這個指標會達到200到500G。這和很多芯片廠家宣傳的不太一樣的,我們的研發(fā)同事也投訴的會比較多一些,因為芯片廠家宣傳芯片算力很強,但是實際拿過來測試,發(fā)現(xiàn)效果并不令人滿意,這里面確實存在很多問題。
我們在做嵌入式落地的時候常用的套路,當一個算法實現(xiàn)之后,我們要做上板的優(yōu)化,一般會先做算法的近似,然后做指令集的優(yōu)化,內(nèi)存、緩存的優(yōu)化等等。但是在深度學習這個領域,內(nèi)存的帶寬瓶頸是一個非常大的問題,如果沒有革命性的突破,芯片的發(fā)展還是符合一個摩爾定律規(guī)律的,能力不會一年翻10倍、20倍。
芯片廠家其實很難跟上算法廠家的節(jié)奏,比如算法廠家在做算法的時候,可能每個月算法都有一些變化,都有一些革新和嘗試,但是芯片是很難的,生產(chǎn)一個芯片的周期到正式量產(chǎn)、成熟的產(chǎn)品化可能需要一年的時間,周期是很長的,所以這是一個長期的瓶頸。
一個產(chǎn)品需要滿足行業(yè)普世的需要,它不會專門為你這個產(chǎn)品來做,所以很多獨特的網(wǎng)絡結構上專門做優(yōu)化,它的性能會提升很多,這種性能提升可能在50%甚至到100%,但是在當前的芯片上要實現(xiàn)這種靈活性的適應是很難的。
有的提法是說數(shù)據(jù)越來越多,芯片的算力越來越強,是不是產(chǎn)品做起來就越來越容易了?我們的判斷不是這樣。比如說當我們的產(chǎn)品在一個場景落地之后,客戶的需求是在不斷升華、不斷細化的,當然這也比較符合人性。在很長的一段時間內(nèi),算力還是不能滿足需求的增長。所以我們就會關注網(wǎng)絡,當然這里我不具體討論網(wǎng)絡的結構,我只提我們在做這種嵌入式產(chǎn)品時,對網(wǎng)絡的理解。
因為算力不夠,在有限的性能下,我們的假定有兩點:一是更好地學習和充分挖掘性能特征,并且在一個產(chǎn)品上,我們對這些特征在不同的環(huán)節(jié)更好地復用,可以大大降低計算的復雜度;二是非端到端的架構,在產(chǎn)品里面我們對每一步、每一個環(huán)節(jié)是可控的,在這個可控的基礎上一步步優(yōu)化和挖掘網(wǎng)絡性能的邊界。這是在算法上我們的一些嘗試和心得。
第三是如何制造。我們光把這個東西設計出來不行,我們還得把它造出來。
供應鏈是一個比較頭疼的問題,原來我們沒有進行制造,做了之后我們也能深刻理解現(xiàn)在很多手機廠家所謂的饑餓營銷,其實也是身不由己。當解決了一些供應鏈的問題,然后就是如何把產(chǎn)品制造出來。
我們現(xiàn)在通過視覺和控制的結合,用“智能”制造“智能相機”。這是我們現(xiàn)在的相機生產(chǎn)線上的自動化流程,當然整條流水線我們還沒有全部實現(xiàn)自動化,但是這是我們要努力的方向。
最后提一提未來的方向。
我們的判斷是,雙目的視覺會是一個非常重要的方向,這是我們2017年10月份安防展推出的一款用于停車停車場行業(yè)的“瞾”系列產(chǎn)品。這款產(chǎn)品的特點是將深度信息和物體的檢測結合,在停車場里達到了接近百分之百的車輛檢出率,這對行業(yè)是有顛覆意義的。
除了深度的應用,當前在安防上,我們也在嘗試通過多個傳感器的融合,來達到在很低照度下實現(xiàn)更好的成像效果,從而突破人的感知能力。
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學
- 窺見“新紀元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領域達成戰(zhàn)略合作伙伴關系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。