讓一群腦洞清奇的開發(fā)者告訴你,AI+產業(yè)的N種可能

原標題:讓一群腦洞清奇的開發(fā)者告訴你,AI+產業(yè)的N種可能

一般來看,一場成功的、勝利的AI行業(yè)大會,往往是這樣的:主持人大談AI技術是多么神奇、智能轉型多么重要、產業(yè)價值多么龐大。然后一群專家(最好有外國人,配上同聲傳譯)相互討論,取代人類、奇點臨近、智能時代、技術倫理等等暢談一番,臺下觀眾不明覺厲地送出掌聲,然后各個AI企業(yè)上臺,以一波跑分、廣告結束了此次大會。

不知大家發(fā)現沒有,在每一個這樣規(guī)模龐大、議題恢弘的行業(yè)大會中,那些真正信賴AI、運用AI的開發(fā)者們,似乎總是面目模糊,只能作為“人肉鼓掌機”出現在圖片一角。

那些秒殺人類的AI究竟是怎么發(fā)明出來的?轉型AI,企業(yè)和開發(fā)者需要做好哪些準備?AI應用還有哪些新的可能性?

顯而易見,想要真正讓大眾和無數企業(yè)、技術人員去了解、信任和觸碰AI,上述問題才是關鍵。

所以,我們在以AI開發(fā)者為主角的“百度AI開發(fā)者大會”現場,抓住了幾個AI項目的負責人,來嘗試還原一下這波“探路者”的日常,以及他們給AI世界帶來的無數奇思妙想。

“生物記”,用AI認識萬千生命

AI開發(fā)者都是群什么人?相信大多數人腦海中會立刻閃出一些畫面:在科技公司高大上辦公樓里游走的潮酷極客;面前擺放著八塊顯示屏的超級宅男;亦或是像鋼鐵俠一樣揮舞幾下就造出個機器人來回跑。

實際上,AI近幾年的快速發(fā)展,以及眾多算法的模塊化,已經使得深度學習方法得到了特別廣泛的應用,開發(fā)者群體也格外豐富多樣。比如我們遇到的第一位AI開發(fā)者,就是來自中國科學院動物研究所的生物學家。

該團隊研發(fā)的產品,是一個名為“生物記”的人工智能平臺,能夠自動識別出圖像中的動植物。

之所以有此創(chuàng)意,源于研究者林聰田的切身工作體會。在他看來,大數據時代,生物多樣性研究的難題主要來自三個方面:

大量的生物數據積累還只能依靠人工來收集和分類,常常需要背著長焦相機行走在深山野外,小心翼翼地拍攝和分辨野生動植物,再對照資料逐一記錄。工作辛苦不說,效率也難以滿足科研需求;第二個問題是,具備專業(yè)知識的分類學專家越來越少,大量生物標本、照片等研究材料的難以得到專業(yè)鑒定,影響數據標注的準確性和可靠性,最終會影響研究的結果;另外,公民科學逐步興起,大眾對動植物的興趣卻與日俱增,不僅學生們需要科普教育,大人們也很愛湊熱鬧,遇到稀奇古怪的生物就上社交網絡求專家鑒定,還捧紅了“博物君”“水族館男”等不少網紅。通過公民科學產生的大量數據也被應用于科學研究,迫切需要能夠自動識別生物的公共平臺,保證公民科學數據的可用性。

在這種大環(huán)境下,一直關注技術進展的林聰田,在2017年開始通過百度大腦開放平臺,將定制化訓練和服務平臺EasyDL,引入到了生態(tài)學研究當中。

目前,已經能識別鳥類、蝴蝶等生物類群。尤其是在鳥類識別上,“生物記”的top5準確率可以達到95%以上,能夠識別一千二百多種鳥類。

專業(yè)的研究員們,野外作業(yè)時帶上“生物記”,直接拍攝記錄就能夠完成野外觀測工作,不需要再繁瑣地手動記錄各種信息。而普通的個人愛好者也可以隨時隨地上傳自己拍攝到的神奇物種,獲取相關知識。值得一提的是,“生物記”會給出物種匹配程度,還能直接在線向專業(yè)的生物學家求助。

人類認識自然的方式,正在變得“智慧”起來。AI讓生命更美好,或許正是如此。

從2D到3D,人臉識別的還有哪些可能?

提到計算機視覺,可能大部分人最為熟悉高頻的應用,都集中在拍照購物、一鍵搜圖、刷臉支付等領域。這也可以說是受深度學習光環(huán)加持最為顯著的AI能力之一。

那么,已經如此普及的成熟場景中,還能掀出什么水花嗎?開發(fā)者們的創(chuàng)造力并沒有讓我們失望。在大會現場,我們就邂逅了一個來自以色列的AI開發(fā)者。

來自以色列的MANTIS VISION,是一家在3D結構光技術上鉆研了14年的科技企業(yè)。2018年9月進入中國市場以后,MV的子公司螳螂慧視很快與百度大腦一碰即合,共同開啟了3D視覺的AI算法研究。

很多朋友可能會好奇,3D視覺對我們有何意義?簡單來說,過去的人臉識別都是在2D基礎上完成的算法在平面彩色圖像上基于生物特征的提取實現個體的區(qū)分,比如提取眉毛高度、嘴角等,再通過特征對比返回結果。

說實話容易導致兩個問題:一是別人拿你的一張照片或者面具就能輕易騙過算法,造成安全隱患;二是精準度低,一旦對方整了容,或是突然變胖變瘦了,亦或是系統(tǒng)中的照片受到角度、光線的影響,都會造成對比準確率下降。

而高精度3D結構光數據的引入,有可能帶來哪些驚喜呢?

首先,數據維度里增加了位置向量,能夠更精準地識別人臉的立體特征。因此,在一些光線比較暗,或是安防系數比較高的地方,3D人臉識別的表現將帶來前所未有的驚喜!

另一個可能帶來的變革,大概率將出現在VR/AR領域。眾所周知,這兩大交互技術長期受限于內容生產的匱乏。而3D數據與AI算法的結合,將直接改變三維內容的生產模式。來自MV的工程師為我們展示了他們的AR動態(tài)人像,逼真的畫風和實時交互,在智能算法的處理下,只需要不到半個小時就能處理完畢并上線。

毫無疑問,在越來越AI的機場、高鐵、零售等人場景中,3D算法的出現將會徹底顛覆我們對人臉識別的最初想象。

當語音無法哄騙AI,聲音才能真正展開羽翼

基于語音識別的各種語音助手、商業(yè)應用,也在悄然描畫著智慧生活的未來。在去年的百度AI開發(fā)者大會中,我們就見到了百度CTO王海峰跟小度“講RAP”的“極限操作”??梢哉f,聽覺方面的技術突破,這兩年大家伙兒都沒少見。

不過,今年我們看到了AI給語音的另一種賦能:防錄音攻擊。

我們知道,聲音之所以能夠在門禁、銀行、公安等領域中成為判定人身份的重要依據,就在于說話人聲紋的不同。

在車載語音系統(tǒng)中,也可以通過聲紋識別來判定車內不同乘客的身份,提供個性化的服務。萬一別人將你的聲音錄下來播放給汽車聽,豈不是可以“為所欲為”了?聲音的合成處理也能達到以假亂真的效果,比如百度AI客服給大量開發(fā)者打電話,很多人一開始壓根沒有發(fā)現對面居然是個AI。

顯然,如果不具備防攻擊能力,單純的聲紋識別仍難以打消大家的安全顧慮。不過魔道總是此消彼長,今年,一個能夠讓系統(tǒng)不被錄音/模擬音騙到的應用就向我們展示出了神奇的療效。

得意音通的技術團隊,在百度深度學習開發(fā)平臺飛槳上,開發(fā)出一個性能很強悍的防錄音攻擊功能。當用戶說出對應的字符時,系統(tǒng)會自動識別并通過,這沒有什么稀奇的。神奇之處在于,當用戶錄下通關密令,再給系統(tǒng)播放時,它會立馬判斷出這不是本人親口說的,并直接對通關請求say NO!

據開發(fā)人員透露,該技術在國際自動說話人識別欺騙攻擊與防御對策挑戰(zhàn)賽(ASVspoof 2019)中,獲得了全球第一的成績。在中國建設銀行手機銀行的數億次驗證中,能做到“零事故”和“零投訴”通過。

這個創(chuàng)意聽起來只是一個小小的功能點創(chuàng)新,卻在這個AI狂飆突破的關鍵時期,提醒了我們,讓AI會說話、說好話是不夠的,懂得拒絕的AI挑戰(zhàn)更大,也更值得人類信賴。

從港口到養(yǎng)雞場:AI也可以很硬核

說了這么多與現實生活息息相關的AI創(chuàng)新,是時候來點“硬菜”了。

其實,企業(yè)的生產更離不開視覺技術的輔助。比如攝像頭監(jiān)控到工業(yè)生產流程,如何識別這些特殊場景的內容就成了難題。

舉個例子,港口裝配的攝像頭偶爾才能捕捉到為數不多的幾個人像,在若干遮擋物的干擾下,可能根本無法識別出特殊人員的出現。如果機器不能及時預警,監(jiān)控員很可能就會忽略掉,所謂的安保也就成了漏洞百出的“篩子”。

再比如,運用計算機視覺算法來識別火災等災害的特征,難以“防患于未然”。當攝像頭監(jiān)測到大量煙霧的時候,很可能災情已經難以控制了。只有在煙霧剛剛似有若無的時候就發(fā)現它,AI才有可能真正發(fā)揮價值。

大家可能已經發(fā)現了,工業(yè)場景對AI的要求經常是“巧婦要為無米之炊”。需要在數據匱乏的情況下,起到技術支撐體的作用,成為人類操作員的“最佳輔助”。這可能嗎?

我們與開發(fā)者們聊了聊,發(fā)現這樣的“送水人”還是真實存在的,米文動力就是其中的一個。

有過AI開發(fā)經驗的朋友會知道,場景定制化的AI功能開發(fā),往往需要有適合自己開發(fā)任務的主板。沒有強健的體魄支撐,再聰慧的大腦也帶不動啊。而米文動力所做的是,就是在“飛槳”等深度學習開發(fā)框架上,定向開發(fā)出多種離線深度學習算法,加上英偉達的GPU硬件,打造出適合工業(yè)場景的計算平臺。

一方面,針對工業(yè)場景中數據稀疏的問題,進行了針對性的算法開發(fā)。比如針對我們前面提到的火焰煙霧的及時識別,米文一方面四處“點火”,主動創(chuàng)造訓練數據;另一方面則通過運動檢測來增強數據,把深度學習無法正常工作的場景中的數據進行擴容,從而讓系統(tǒng)能夠進一步分析和訓練算法。

另外,結合工業(yè)場景數據采集難、終端實時計算的特殊需求,打造了邊緣計算+云端的計算平臺。像是在輪船、吊車等一系列大型工業(yè)設施上,米文對硬件部分做了針對性調整,讓視覺終端可以在高溫高濕有震感的環(huán)境下長時間工作;軟件部分則借助GPU的強大算力,遠程完成模型更新與數據獲取,降低了工作人員到現場取數據的頻率。

這一系列工作的最終目的,都是讓AI能夠真正變成人類操作員的“眼睛”,從高強度、高風險作業(yè)中解放出來。

看到這里,是不是很驚嘆于開發(fā)者們的創(chuàng)造力?普通人眼里一樣的“AI”倆字(母),在他們手中卻能變幻出這么多奇思妙想。

除了上述幾個代表型創(chuàng)新,我們在百度AI開發(fā)者大會現場,還看到了幫助京東方植物工廠育苗的AI,浦發(fā)銀行的首位AI員工,以及幫助基層醫(yī)生看CT的AI……

在這些創(chuàng)造力的迸發(fā)背后,或許可以探討這樣一個問題:過去,我們總覺得AI距離普通人很遠,那些真實可用療效好的AI,到底去哪兒領?

也許最核心的關鍵詞應該是——AI開發(fā)者。

他們帶給AI的并不僅僅是一兩個爆款應用,隨著AI的持續(xù)深化,開始指向更為復雜精細的行業(yè)需求,能夠連接原始產業(yè)與AI能力的角色,唯有這些胸有丘壑的開發(fā)者才能觸達。

AI開發(fā)的難與不難

浮在實驗室與測試數據中的AI技術急于走向臺前,國家和產業(yè)對實用化AI的需求同樣也十分迫切。你是不是也蠢蠢欲動,想要在AI江湖中一展身手?別急,我們也在現場幫大家向上面的優(yōu)秀“課代表”們取了取經——想要打造一個致用型AI,需要具備哪些前提?

1.放棄將AI“神化”的幻想。

用開發(fā)者的話來說,AI開發(fā)真正注意的東西,都是跟AI開發(fā)無關的一些東西。比如一個基本的常識,AI技術只是一個個螺絲刀、老虎鉗這樣的工具,最后如何解決問題,應該用這個老虎鉗還是一個螺絲刀就能搞定,這種對產業(yè)問題的基礎判斷能力,找到AI技術適用的場景和方式,才是開發(fā)者應該具備的特質。

2.有多少人工,就有多少智能。

找對了工具(算法),也不意味著能夠立竿見影地解決問題?!坝卸嗌偃斯?,就有多少智能”,看似是一句笑談,也是AI世界里的樸素真理。

采訪中,就有兩個細節(jié)特別打動我。

MV的開發(fā)者分享了一個自己的親身經歷,高精度3D結構光的數據量相比2D是幾何倍數的增加,即使做了成像壓縮,一塊1T的硬盤也可能裝不了兩個人的人臉數據。為了保證算法訓練的數據量,往往是在豐臺的辦公室采集完了之后,由開發(fā)者自己拿一個啤酒架一樣的架子,裝滿硬盤給百度大腦的技術人員送過去,常常需要往返數十趟。就是在這樣的人力工作之下,才誕生了3D人臉識別算法的雛形。

米文未來的延誤識別算法,也是在這樣不辭辛苦的人工干預下完成的。在不同光線、時間、背景,室內、室外等各種環(huán)境條件下,米文的開發(fā)者大概花費了幾百個小時“點燈放火”,才積累到了幾十萬張數據,完成了算法的訓練。

所以說,AI開發(fā)中要面對的真實問題往往比預期和實驗室中復雜很多,運用一切辦法、動用一切力量去解決問題,這是一條不好走的路,但這才是一個AI開發(fā)者的自我修養(yǎng)。

3.不輕技術,更不輕應用。

在AI狂飆突進的過程中,很多開發(fā)者把AI算法本身看的很重,日常沉迷跑分與論文。這樣做低估了AI產業(yè)化的難度,也低估了產業(yè)端的價值。很多時候,技術在真實的產業(yè)場景里可能會缺位。比如生物識別、火焰識別等等,這可能是科學家們一般不會思考的問題,卻是切實存在、富有價值的產業(yè)需求。

在采訪中,來自中科院的王聰田這樣理解自己的定位——應用的人如果掉進技術的坑里,可能就跑不出來了,可以利用百度EsayDL這種人家已經訓練好的簡單易用的模型,不要深挖技術上的東西。

同樣想法的還有很多,例如視派爾科技,作為數字圖像處理的技術方案服務商,視派爾的開發(fā)者也強調,自己的重點在打磨體驗和場景,做好AI所需要的前端圖像處理外,還要做更貼合市場的定制化服務,至于平臺化的SDK等軟件層就就依靠百度這樣的合作伙伴。在和百度大腦的合作過程中們也體會到和看到了這一商業(yè)模式的潛力。

畢竟,深入應用場景的產品及深度定制化的創(chuàng)新要比重新造輪子緊迫得多,產業(yè)化才是讓AI普惠更快被大眾感知和享有的關鍵。

總而言之,對AI“致用”的合理認知,才是一切想象力與奇妙故事的起點。

結束語

賦予智能手機價值的,是靠無數移動開發(fā)者的奇思妙想所支撐起來的應用生態(tài)。但到了AI時代,我們總在強調AI“三劍客”——算力、數據、算法。這三大門檻,似乎一直束縛著開發(fā)者的思想,無法撬動AI真實的產業(yè)價值。

可喜的是,我們逐漸看到,算力在變得廉價、數據資源日漸充沛,算法能力正在被百度等以簡單易用的形式“擺渡”給開發(fā)者。

那么下個階段,AI還能拼什么?答案或許是,開發(fā)者的想象力。

當AI開發(fā)者們能夠從現實中汲取靈感,知道并且擁有工具去實現它們的時候,技術的寶庫或許才會真正開啟。也唯有如此,AI才不會變成另一個“吹泡泡”游戲。

我們也無比期待著生機盎然的“萬眾創(chuàng)新”那一天早日到來。

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-07-07
讓一群腦洞清奇的開發(fā)者告訴你,AI+產業(yè)的N種可能
工作辛苦不說,效率也難以滿足科研需求;第二個問題是,具備專業(yè)知識的分類學專家越來越少,大量生物標本、照片等研究材料的難以得到專業(yè)鑒定,影響數據標注的準確性和可靠性,最終會影響研究的結果;另外,公民科學

長按掃碼 閱讀全文