扎根多模態(tài),是新基建中AI走向未來的必由之路?

近日,由螞蟻金服牽頭制定的“生物特征識(shí)別多模態(tài)融合國際標(biāo)準(zhǔn)”正式立項(xiàng),這一標(biāo)準(zhǔn)的制定,對(duì)于多模態(tài)領(lǐng)域發(fā)展與技術(shù)規(guī)范產(chǎn)生了重大影響。

為此,筆者與眼神科技、云從、銀河水滴等多個(gè)企業(yè)方,進(jìn)行了關(guān)于多模態(tài)領(lǐng)域發(fā)展主題的對(duì)話。相較于多模態(tài),我們應(yīng)該先了解單模態(tài)。在對(duì)話中筆者了解到,對(duì)于指紋識(shí)別、人臉識(shí)別、虹膜識(shí)別、指靜脈識(shí)別等每一種生物識(shí)別技術(shù),通過每一種算法用一個(gè)傳感器去解決一個(gè)問題的模式,即為單模態(tài)。

后來,隨著AI發(fā)展和信息化的迭代,不同信息從不同方位、不同傳感器一擁而入,單一識(shí)別技術(shù)已經(jīng)很難滿足這樣的發(fā)展,在這種情況下,多模態(tài)技術(shù)應(yīng)場(chǎng)景而生。但多模態(tài)并不是單模態(tài)的簡單疊加或組合替代,而是基于數(shù)據(jù)融合的算法融合、并依托平臺(tái)決策為支撐,是單模態(tài)生物識(shí)別技術(shù)的重大突破,也是識(shí)別技術(shù)的未來發(fā)展方向。

目前,多模態(tài)技術(shù)主要應(yīng)用于線上娛樂、身份認(rèn)證、醫(yī)療健康、智慧金融、安防、教育、軍工、園區(qū)等領(lǐng)域。

應(yīng)用驅(qū)動(dòng)下,多模態(tài)成AI行業(yè)發(fā)展新風(fēng)向

多模態(tài)從2018年開始成為技術(shù)行業(yè)的焦點(diǎn)。那時(shí),很多國內(nèi)大企業(yè),如華為、騰訊、百度、阿里等公司,都開始逐漸把目光瞄向多模態(tài);很多創(chuàng)業(yè)公司,如眼神科技、云從、依圖、銀河水滴等也在思考這個(gè)方向性的發(fā)展問題。

騰訊AI Lab的博士俞棟曾說“多模態(tài)是邁向通用人工智能的重要方向”,通用人工智能是弱人工智能時(shí)代需要走的一個(gè)方向,弱人工智能是“見多識(shí)廣”,解決的是感知問題。

在眼神科技創(chuàng)始人兼CEO周軍看來:“通用人工智能具有幾個(gè)屬性:自學(xué)習(xí)、增量學(xué)習(xí)、增強(qiáng)學(xué)習(xí),這些內(nèi)容結(jié)合在一塊,是強(qiáng)人工智能。從弱人工智能到強(qiáng)人工智能的奇點(diǎn),截止目前還沒有突破?!薄耙娚僦唷?、“不見而預(yù)知”的強(qiáng)人工智能時(shí)代,這是國際前沿人工智能公司一直努力多年的事情,但是技術(shù)遇到了天花板。

據(jù)了解,眼神科技從早期就已經(jīng)完成了指紋識(shí)別、人臉識(shí)別、虹膜識(shí)別技術(shù)的研發(fā),形成基礎(chǔ)算法,其在面向市場(chǎng)推廣中發(fā)現(xiàn),單一技術(shù)決策存在局限,并在應(yīng)用驅(qū)動(dòng)下推出多模態(tài)融合生物識(shí)別技術(shù)?!岸嗄B(tài)融合生物識(shí)別可以提升識(shí)別精準(zhǔn)度,也能在一定程度提升生物識(shí)別技術(shù)的場(chǎng)景適應(yīng)性和隱私安全性。”眼神科技表示。

簡單來說,模態(tài)就是“感官”,多模態(tài)就是將多種感官融合的方式。云從科技解釋道:“如果把‘模態(tài)’通俗地理解為感官,那么智能音箱就是一臺(tái)只具備聽覺模態(tài)的物聯(lián)網(wǎng)設(shè)備,而加載AI分析能力的攝像頭可以視為視覺模態(tài)的物聯(lián)網(wǎng)設(shè)備,把聽覺、視覺甚至更多模態(tài)組合到一起,可誕生多模態(tài)物聯(lián)網(wǎng)”。

與眼神科技、云從科技領(lǐng)域略有不同的步態(tài)識(shí)別企業(yè)銀河水滴表示,“多模態(tài)技術(shù)在我國早已得到廣泛應(yīng)用,如在公共安防領(lǐng)域。另外,指紋和人臉識(shí)別等技術(shù)的配合使用也比較成熟,目前正在向更深入更廣泛的程度邁進(jìn),在這個(gè)過程中,步態(tài)識(shí)別技術(shù)越來越受到重視”。

據(jù)悉,步態(tài)識(shí)別是一種新興的生物特征識(shí)別技術(shù),相較于其他識(shí)別方式,步態(tài)識(shí)別的識(shí)別距離更遠(yuǎn)。例如,普通高清攝像機(jī)下識(shí)別距離最遠(yuǎn)可達(dá)50米,屬于非受控識(shí)別,無需識(shí)別對(duì)象主動(dòng)配合。步態(tài)識(shí)別是由體型、頭型、肌肉力量、運(yùn)動(dòng)神經(jīng)靈敏度、走路姿態(tài)等共同決定,局部變化并不會(huì)影響識(shí)別結(jié)果。

因此,步態(tài)識(shí)別技術(shù)可以有效彌補(bǔ)其他識(shí)別技術(shù)的不足,比如識(shí)別距離普遍較短、需要主動(dòng)配合或接觸等問題。結(jié)合了步態(tài)識(shí)別的多模態(tài)技術(shù)將有更廣泛的應(yīng)用前景。

同時(shí),銀河水滴也稱:“每一種信息的來源都可以稱為一種模態(tài)。就AI而言,步態(tài)、人臉、虹膜、指紋、語音等生物特征模態(tài)是機(jī)器識(shí)別的依據(jù),多模態(tài)識(shí)別即是一種結(jié)合以上多種識(shí)別技術(shù)的解決方案。任何一種識(shí)別方式都有一定的不足,多種模式結(jié)合可以達(dá)到更好的效果”。

新基建下,多模態(tài)融合的AI行業(yè)進(jìn)入快車道

國家新基建政策的頒布,讓AI行業(yè)擁有了更大的發(fā)展空間,加之這次生物特征識(shí)別多模態(tài)融合標(biāo)準(zhǔn)的立項(xiàng),更是讓AI有了更多的想象空間。

新基建實(shí)際上是新時(shí)代下,可促進(jìn)物質(zhì)、能量、數(shù)據(jù)更高效產(chǎn)生和流動(dòng),使其朝著能夠產(chǎn)生更大價(jià)值的地方匯聚,這次新冠疫情已經(jīng)切身感受到基于AI技術(shù)下,新基建所帶來的社會(huì)效應(yīng)。

云從科技稱,新基建下AI得到很好應(yīng)用,而多模態(tài)融合是AI技術(shù)發(fā)展必然結(jié)果,因?yàn)閱吸c(diǎn)技術(shù)存在瓶頸,無法很好發(fā)揮AI的作用,容易導(dǎo)致部分功能和體驗(yàn)感缺失。

而在多模態(tài)或AI技術(shù)閉環(huán)的支持下,AI可以在消費(fèi)端與生產(chǎn)端更好服務(wù)社會(huì)?!癆I是‘頭雁’,解決的是問題本身,怎樣讓能力提高,怎么去解決問題。讓AI引領(lǐng)技術(shù)發(fā)展是整個(gè)行業(yè),也是云從當(dāng)前思考的主要問題?!痹茝目萍佳a(bǔ)充道。

在消費(fèi)者端,最能體現(xiàn)更好、更自然交互的是一位24小時(shí)的個(gè)人助理,它能知道用戶什么時(shí)候想要什么,用戶永遠(yuǎn)能得到自己期望的服務(wù)。

在生產(chǎn)者端,人機(jī)協(xié)同將能擴(kuò)展人類專家的能力,比如現(xiàn)在醫(yī)生一天只能診斷10個(gè)人,未來也許在AI的幫助下,通過語音、AI診斷、視覺輔助、大數(shù)據(jù)等技術(shù)可以一天診斷1000個(gè)人。

云從科技總結(jié)了目前AI設(shè)備技術(shù)閉環(huán)的三種形式:1、感知,包括語音識(shí)別、語義理解、多輪對(duì)話、NLP、語音精準(zhǔn)識(shí)別等領(lǐng)等;2、認(rèn)知,包括自然物體識(shí)別、人臉識(shí)別、肢體動(dòng)作識(shí)別等;3、決策,包括AI對(duì)熱量、紅外捕捉信號(hào)、空間信號(hào)的閱讀與理解。

眼神科技則向筆者表示:“新基建的重要領(lǐng)域之一就是AI,乘著“新基建”的東風(fēng),AI行業(yè)發(fā)展將加速進(jìn)入快車道。從這次新冠疫情中可以看到,AI在公共安防、疫情防控、遠(yuǎn)程辦公及服務(wù)中發(fā)揮了重要作用”。

此外,中國基礎(chǔ)設(shè)施的“智能化”建設(shè)迫在眉睫,智慧城市、智慧安防、智能醫(yī)療、智慧社區(qū)、智慧教育等基礎(chǔ)設(shè)施智能化建設(shè)進(jìn)入全面爆發(fā)期,將為AI拓展更多創(chuàng)新應(yīng)用場(chǎng)景和市場(chǎng)空間。在眼神科技看來,“在AI應(yīng)用場(chǎng)景不斷深耕,以及5G、大數(shù)據(jù)、云計(jì)算等新興技術(shù)的融合推動(dòng)下,多模態(tài)融合生物識(shí)別是AI未來發(fā)展的必經(jīng)之路”。

不過,目前AI還處于一個(gè)初級(jí)階段,更為關(guān)注的是更簡單層次的交互。比如語音、人臉識(shí)別,這些只是感知階段。而且在信息化時(shí)代下,很多場(chǎng)景每天都會(huì)產(chǎn)生海量的視頻和圖像數(shù)據(jù),但這些信息并沒有得到很好利用,大量值得挖掘的潛在價(jià)值,被使用的也僅是冰山一角。

對(duì)此,眼神科技稱,“在實(shí)戰(zhàn)應(yīng)用場(chǎng)景會(huì)有很多不可控的因素,比如遮擋、光照等,這些會(huì)影響生物特征識(shí)別技術(shù)的應(yīng)用,行業(yè)需要針對(duì)現(xiàn)有實(shí)際問題,對(duì)各種識(shí)別技術(shù)進(jìn)行不斷的研發(fā)和優(yōu)化算法”。

云從科技也表示,“現(xiàn)在AI僅處于初步發(fā)展階段,解決的是簡單層次的交互,更深層次的多模態(tài)融合交互,目前做得還遠(yuǎn)遠(yuǎn)不夠,有待繼續(xù)加強(qiáng)”。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2020-03-30
扎根多模態(tài),是新基建中AI走向未來的必由之路?
近日,由螞蟻金服牽頭制定的“生物特征識(shí)別多模態(tài)融合國際標(biāo)準(zhǔn)”正式立項(xiàng),這一標(biāo)準(zhǔn)的制定,對(duì)于多模態(tài)領(lǐng)域發(fā)展與技術(shù)規(guī)范產(chǎn)生了重大影響。

長按掃碼 閱讀全文