從“聽懂”到“回答”,人工智能是如何輕松get人類語言的?

原標(biāo)題:從“聽懂”到“回答”,人工智能是如何輕松get人類語言的?

在上一篇專欄文章《AI應(yīng)用 | 人工智能為什么越來越聰明,從機器學(xué)習(xí)說起》中,我們聊了聊人工智能的基礎(chǔ)技術(shù)——機器學(xué)習(xí)。本篇繼續(xù)深入,看看實現(xiàn)人工智能需要什么樣的核心技術(shù)能力。

舉個例子,兩個人對話,之所以能做到所答即所問,一是聽到并理解了對方說的話,二是有相應(yīng)知識儲備能夠組織語言回答,二者缺一不可。

人工智能也是如此,可以將支撐它的核心技術(shù)能力分為兩類:感知技術(shù)和認(rèn)知技術(shù)。其中,感知技術(shù)可以歸類為“聽懂”,認(rèn)知技術(shù)則可以統(tǒng)歸為“回答”。而這兩項技術(shù)都是由機器學(xué)習(xí)支撐的,這也是一再強調(diào),機器學(xué)習(xí)是人工智能基礎(chǔ)中的基礎(chǔ)的根本原因。

那什么是感知技術(shù)和認(rèn)知技術(shù)?前者是對信息獲取并進(jìn)行認(rèn)知和理解的過程(聽到、看到、感覺到,知道在特定場景下是什么意思),后者則是分析數(shù)據(jù)、決策的過程(對以上做出反映,會動、會說、會反饋)。具體而言,每項技術(shù)都包括很多應(yīng)用場景。

感知技術(shù)包括:智能語音、計算機視覺、AR/VR。

認(rèn)知技術(shù)包括:自然語言處理、知識圖譜、用戶理解等。

下面看看每項技術(shù)都有什么特點。

認(rèn)識三大感知技術(shù)

  • 智能語音

智能語音是人以自然語音或機器合成語音同計算機進(jìn)行交互的綜合性技術(shù),結(jié)合了語言學(xué)、心理學(xué)、工程和計算機技術(shù)等領(lǐng)域的知識。其不僅要對語音識別和語音合成進(jìn)行研究,還要對人在語音通道下的交互機理、行為方式等進(jìn)行研究。其中,語音交互過程包括四部分:語音采集、語音識別、語義理解和語音合成。

在這個領(lǐng)域中,科學(xué)界早在20多年前就進(jìn)行了嘗試,比如IBM的ViaVoice誕生于2000年左右。在2017年,IBM、微軟相繼宣稱自家的產(chǎn)品語音識別錯誤率接近了人類(相差4~5個百分點),而人類的語音識別錯誤率大約為5.1%。百度的AI語音開發(fā)時間較早,準(zhǔn)確識別率超90%,支持多領(lǐng)域語義理解和開發(fā)者自行上傳詞庫,并在多個行業(yè)有應(yīng)用。

  • 計算機視覺

計算機視覺是使用計算機模仿人類視覺系統(tǒng)的科學(xué),讓計算機擁有類似人類提取、處理、理解和分析圖像以及圖像序列的能力。近年來,隨著深度學(xué)習(xí)的發(fā)展,預(yù)處理、特征提取與算法處理漸漸融合,形成端到端的人工智能算法技術(shù)。

自動駕駛、機器人、智能醫(yī)療等領(lǐng)域均需要通過計算機視覺技術(shù)從視覺信號中提取并處理信息。比如,自動駕駛就是一個典型的應(yīng)用場景,真正要成為“無人駕駛”,幾乎99%的情況下都要依賴計算視覺的能力。

計算機視覺可分為圖像理解、三維視覺、動態(tài)視覺三大類。

  • 圖像理解是通過用計算機系統(tǒng)解釋圖像,實現(xiàn)類似人類視覺系統(tǒng)理解外部世界的一門科學(xué)。
  • 三維視覺即研究如何通過視覺獲取三維信息(三維重建)以及如何理解所獲取的三維信息的科學(xué)。
  • 動態(tài)視覺即分析視頻或圖像序列,模擬人處理時序圖像的科學(xué)。
  • 增強現(xiàn)實(AR)/虛擬現(xiàn)實(VR)

增強現(xiàn)實(AR)/虛擬現(xiàn)實(VR)是以計算機為核心的新型視聽技術(shù)。結(jié)合相關(guān)科學(xué)技術(shù),在一定范圍內(nèi)生成與真實環(huán)境在視覺、聽覺、觸感等方面高度近似的數(shù)字化環(huán)境。用戶借助必要的裝備與數(shù)字化環(huán)境中的對象進(jìn)行交互,相互影響,獲得近似真實環(huán)境的感受和體驗,通過顯示設(shè)備、跟蹤定位設(shè)備、觸力覺交互設(shè)備、數(shù)據(jù)獲取設(shè)備、專用芯片等實現(xiàn)。

從中不難發(fā)現(xiàn),感知技術(shù)的重點在于“感”,像聽、看、觸,未來還可能有“嗅覺”都屬于這個范疇。

再識三大認(rèn)知技術(shù)

  • 自然語言處理

自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向,研究能實現(xiàn)人與計算機之間用自然語言進(jìn)行有效通信的各種理論和方法,涉及的領(lǐng)域較多,主要包括機器翻譯、閱讀理解、智能寫作、對話系統(tǒng)、基礎(chǔ)技術(shù)和語義計算等。

自然語言處理的難點在于讓機器“懂”人類,應(yīng)用最廣的是“智能音箱”,能讓音箱聽懂人類詞語背后的真正含義,這就要結(jié)合場景、上下文對話、不斷訓(xùn)練才能一步步提高“懂”的層級。

  • 知識圖譜

知識圖譜是一種結(jié)構(gòu)化的知識庫,是一種由節(jié)點和邊組成的圖數(shù)據(jù)結(jié)構(gòu),是一種將不同種類的信息連接在一起的語義網(wǎng)絡(luò)。知識圖譜符號化地描述了物理世界中的實體及其聯(lián)系,提供了從“關(guān)系”的角度去分析問題的能力。與行業(yè)應(yīng)用場景結(jié)合,知識圖譜可以廣泛應(yīng)用于智慧醫(yī)療、智慧金融、智慧司法、智慧企業(yè)服務(wù)等方向。

這也是近兩年發(fā)展較快的技術(shù),10多年前的語義網(wǎng)絡(luò)、專家系統(tǒng)都可以看做是知識圖譜的前身。目前在百度云智能客服系統(tǒng)中已經(jīng)有較成熟的應(yīng)用, 現(xiàn)在百度的度秘、新聞推薦也都有應(yīng)用知識圖譜。

  • 用戶理解

AI應(yīng)用場景中,需要對C端用戶有全面的理解,用戶畫像是非常重要的技術(shù)方向,可以從多個維度去刻畫用戶特征,形成群體畫像,用于市場營銷、風(fēng)險控制等領(lǐng)域。很明顯,認(rèn)知技術(shù)的核心在于“認(rèn)”,重要的是輸出結(jié)果,輔助決策。

這與大數(shù)據(jù)的相關(guān)技術(shù)密不可分,在以“客戶為中心”的數(shù)字營銷中應(yīng)用較多。

從當(dāng)前的發(fā)展階段看,感知技術(shù)已經(jīng)相對成熟,并廣泛應(yīng)用于金融、制造、政府、零售、地產(chǎn)、教育、交通等諸多行業(yè),認(rèn)知技術(shù)相較而言則還有較大的發(fā)展空間,待拓展的領(lǐng)域還有很多。

不過,相信隨著包括百度云在內(nèi)眾多企業(yè)不斷將這些AI技術(shù)應(yīng)用到不同行業(yè)中,反過來也會提高和促進(jìn)這些技術(shù)的發(fā)展,然后不斷反饋到行業(yè)中,讓更多企業(yè)從中受益,實現(xiàn)智能轉(zhuǎn)型。

關(guān)注百度云微信公眾號,了解更多AI應(yīng)用知識

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-02-25
從“聽懂”到“回答”,人工智能是如何輕松get人類語言的?
自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向,研究能實現(xiàn)人與計算機之間用自然語言進(jìn)行有效通信的各種理論和方法,涉及的領(lǐng)域較多,主要包括機器翻譯、閱讀理解、智能寫作、對話系統(tǒng)、基礎(chǔ)技術(shù)和語

長按掃碼 閱讀全文