當(dāng)我們談?wù)揂I的時候,難道只能是關(guān)于“看”和“聽”嗎?

原標(biāo)題:當(dāng)我們談?wù)?a href="http://www.ygpos.cn/AI_1.html" target="_blank" class="keylink">AI的時候,難道只能是關(guān)于“看”和“聽”嗎?

AI近幾年的快速發(fā)展離不開深度學(xué)習(xí)方法的深入研究,而深度學(xué)習(xí)提升AI能力的最顯著表現(xiàn),目前來看主要集中在兩個方面:圖像識別和語音識別。

通過對圖像的語義分割,圖像識別技術(shù)已經(jīng)應(yīng)用得特別廣泛。在手機攝影、拍照購物、刷臉支付等各種領(lǐng)域,圖像識別給我們帶來了極大的便利。同時,基于語音識別的各種語音助手比如智能音箱等,也在悄然描畫智能家居的未來。可以說,單單是在視覺和聽覺這兩個方面的技術(shù)突破,AI就已經(jīng)給世界帶來了巨大改變。

但是,人有五感,除了視覺和聽覺之外,還有非常重要的觸覺。曾經(jīng)有個人做實驗,看看蒙上眼睛堵上耳朵再綁手腳這人會怎樣,結(jié)果差點兒整出精神病。

那么具體到AI這件事上,僅僅發(fā)展其視覺和聽覺技術(shù)已經(jīng)逐步呈現(xiàn)了“瘸腿走路”的特征。如今,或許是時候討論一下給它加上觸覺這件事了。

視覺和聽覺長板下的觸覺短板

視覺和聽覺技術(shù)發(fā)展的優(yōu)點是顯而易見的,其最重要的作用也集中在兩個字上:識別。

為什么視覺的識別和聽覺的識別技術(shù)這么重要,而且被首先開發(fā)出來呢?筆者認為主要有以下幾個方面的原因。

第一,視覺和聽覺是判斷某一個物體特性的基本方法。如何確定一個人是張三而不是李四?首先我們要看他的臉,千人一面這件事兒基本不可能,臉也就成為了一個人區(qū)別于他人最顯而易見的特征。其次,每個人的聲音可以說也是藏在身體里的一道獨特密碼。所以,要讓AI認出人,視覺和聽覺的技術(shù)研發(fā)就首當(dāng)其沖了。

第二,識別在現(xiàn)實生活中蘊藏著人類的巨大需求。無論是工作還是學(xué)習(xí),亦或是企業(yè)的生產(chǎn),幾乎離不開視聽尤其是視覺技術(shù)。比如攝像頭監(jiān)控到了工業(yè)生產(chǎn)流程、鏡頭下的人們的動態(tài),但是如何識別這些海量內(nèi)容就成為了人們的難題。又如各種場景下物聯(lián)網(wǎng)生態(tài)的構(gòu)建,如果沒有視聽,萬物互聯(lián)也就成為了無本之源。

第三,視聽技術(shù)的突破得益于技術(shù)的長期積累。計算機視覺分析早在上個世紀六十年代就已經(jīng)走進了科學(xué)家們的研究視線,而以雞尾酒會為代表的語音識別則是在更早的一九五三年。經(jīng)過半個多世紀的發(fā)展,關(guān)于機器視覺和語音識別問題的研究成果已經(jīng)非常豐富,近年來興起的深度學(xué)習(xí)方法則助推其進入了一個發(fā)展的高潮。

事實上,兩種技術(shù)的大規(guī)模應(yīng)用也確實為無論是B端還是C端的用戶都帶來了巨大的便利之處。但是隨著人們對AI應(yīng)用能力的要求的提高,視覺和聽覺這兩塊長板顯然已經(jīng)彌補不了觸覺短板帶來的問題。

比如倒水這件事。倒水和接水是有很大區(qū)別的。接水只需要給機器定一個出水的量,量滿即止,就不會出現(xiàn)灑溢的問題。而要想機器實現(xiàn)像人一樣倒水,就不是這么簡單了,它不僅要涉及到視覺觀察水杯在哪兒、是否對準了杯口、水杯是否已經(jīng)倒?jié)M,還必須要保證拿到的被子不會滑落。那么,這個時候只依靠視覺識別就不夠了,畢竟機感受杯子會掉這件事觸覺肯定比視覺來得快,不然現(xiàn)實中也就不會有那么多人會被燙傷了。

由此可見,雖然AI不再是瞎子、聾子,但隨著其不斷長大,觸覺障礙帶來的麻煩恐怕也就會越來越多。

從皮膚到虛擬現(xiàn)實:身處閨中的觸覺模擬

人的皮膚上遍布著觸覺感受器,其將來自外界的溫度、濕度、壓力、疼痛等刺激通過神經(jīng)傳遞給大腦,然后作出分析和應(yīng)對,這就是人的觸覺活動的一個基本邏輯。如果一個人的觸覺失靈,最大的危害就是其將無法感受到來自外界的危險,進而無法做出反應(yīng)?,F(xiàn)實中有很多這樣的例子,有人天生痛覺缺失,受傷就成了家常便飯。那么用到機器人的身上,觸覺的缺失就意味著必須要從其他方面迂回地為其設(shè)計自我保護系統(tǒng)。

那么,有沒有什么辦法讓虛擬觸覺成為現(xiàn)實呢?

事實上,研究者們在實驗室里探索虛擬觸覺的腳步一直以來并沒有停止。只是由于觸覺系統(tǒng)的復(fù)雜性,比如如何模擬皮膚觸覺感受器對不同刺激的感知等,導(dǎo)致觸覺研究基本上仍然停留在實驗室和論文當(dāng)中,其在市場上的應(yīng)用還不夠成熟。關(guān)于觸覺的研究,目前來看主要還是通過開發(fā)模擬觸覺感受器的傳感器,表現(xiàn)在以下幾個方面。

模擬電子皮膚。由于觸覺最直接的是由皮膚感受到的,所以電子皮膚也就成為了觸覺研究者們最青睞的課題。針對復(fù)雜的觸覺系統(tǒng),研究者們同樣是采取了針對不同的刺激類別而研發(fā)不同的皮膚傳感器,80年代以來,分別研發(fā)了專門感應(yīng)溫度、濕度、力度等各個方面的傳感器。

最近,約翰霍普金斯的大學(xué)的研究人員們開發(fā)出了一種新的電子皮膚,其可以通過感知刺激將沖動傳遞給周圍的神經(jīng)來重建觸覺。研究者們把電子皮膚套在受試者的指尖,然后將其連接到受試者的身上,測試結(jié)果表明,受試者確實能對尖銳物體和圓滑物體表現(xiàn)出疼痛和非疼痛的反應(yīng)。這說明至少在部分功能上,這種電子皮膚可以稱得上是成功的。只不過它對溫度的感應(yīng)還不太靈敏,這也是需要改進的地方。

機器手抓舉實驗。在家庭或商業(yè)場景下,需要機器人用手去做的事情就很多了。在這方面,也有很多科學(xué)家嘗試了不同的實驗內(nèi)容。

卡梅隆大學(xué)的研究人員做了一套fingervision系統(tǒng),然后將其安裝在了一個機器人的手臂的末端。用來干嘛呢?剝香蕉皮。

用香蕉來做實驗,其意圖非常明顯了。用力太小,剝不下來;用力過大,估計很多同學(xué)都知道把香蕉捏扁后是什么感覺,我們可以感受一下這個機器人剝香蕉的樣子:

看起來還是很專業(yè)的嘛。該系統(tǒng)的主要功能就是當(dāng)機器人在抓取東西的時候,其可以通過觸覺來感知物品是否滑動、是否能保持物品的形狀完整性,從而來控制抓取的力。但是同學(xué)們可以看到的是,雖然香蕉皮剝下來了,但最后拽那一下……實在是有點暴力啊。

虛擬觸覺。斯坦福大學(xué)則做了一個聽起來很勁爆的裝置:wolverine(金剛狼)。它主要用在虛擬現(xiàn)實當(dāng)中。該裝置看起來十分令人無語:長長的黑色鐵棍,再加幾個金屬片,往手指頭上一戴就完事兒。但看起來雖然簡單,其卻能夠在為手指帶來觸覺上的反饋。比如抓取一個虛擬現(xiàn)實的杯子,鐵棍的滑塊便會扣緊,你就能真切地感受到杯子反饋給你手指的力度。

英國的一家初創(chuàng)公司則試圖在增強現(xiàn)實上做點觸覺的模擬。他們在一只手寫筆的筆尖附近配備了一個微型設(shè)備“音圈驅(qū)動器”。這樣如果在平板上選擇“磨砂紙”的書寫場景的時候,該設(shè)備就會通過一系列復(fù)雜的震動而重現(xiàn)書寫場景的感受。一個小小的觸覺感受器,就可以模擬很多場景。

由此可見,無論是針對現(xiàn)實增強還是虛擬增強,已經(jīng)有很多人扎進了觸覺模擬的研究當(dāng)中。那么,在未來技術(shù)成熟的時候,它會給我們帶來哪些進步的可能呢?

集齊了這“三感”,AI更像人了

首先,義肢觸覺的恢復(fù)將成為技術(shù)應(yīng)用的重點。

目前而言,義肢的最大作用是幫助人們恢復(fù)了部分功能性的能力,或者說,讓人們的身體看起來比較完整。但相較肢體殘缺的不幸,人們最渴望的仍然是能夠恢復(fù)肢體的感知功能。那么,當(dāng)人造電子皮膚能夠像真人皮膚一樣感知來自外界的不同類型的刺激,其也將能有效地避免因觸覺的缺失而給人們帶來的意外傷害。

其次,模擬觸覺技術(shù)的進步也將對虛擬現(xiàn)實為更多人所接受產(chǎn)生有利的影響。比如上文中提到的“金剛狼”,以及為更多人所熟知的VR手套等。如此,虛擬真實將會變得更加真實,玩家的沉浸感也將會更強。并且,在訓(xùn)練工人比如修車工等方面,其也將有大的永無之地,為企業(yè)省下購買實物訓(xùn)練的成本。

最后,觸覺模擬的成熟也將和AI圖像識別、語音識別一起將AI鋪向更廣更深的領(lǐng)域和層次,進而影響物聯(lián)網(wǎng)的發(fā)展進程。這里我們可以開個腦洞:想象一下,以后你坐進車里,人臉識別認出來是你之后自動啟動車輛,通過語音控制你聽到了自己喜歡的音樂,而座椅通過對你身體的感知自動調(diào)整到你最舒服的位置,是不是很爽呢?

當(dāng)然,到那一步或許我們還差得很遠,但是實現(xiàn)觸覺的智能化很有可能是一個繞不開的課題。當(dāng)以后的AI集齊了視覺、聽覺之外的觸覺第三感,除了那皮膚包裹俠的密密麻麻的電子元件,還安能辨其是不是AI?

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-06-26
當(dāng)我們談?wù)揂I的時候,難道只能是關(guān)于“看”和“聽”嗎?
原標(biāo)題:當(dāng)我們談?wù)揂I的時候,難道只能是關(guān)于“看”和“聽”嗎?AI近幾年的快速發(fā)展離不開深度學(xué)習(xí)方法的深入研究,而深度學(xué)習(xí)提升AI能力的最顯著表現(xiàn),目前來看主要集中在兩個方面:圖像識別和語音識別。

長按掃碼 閱讀全文