親,阿里AI已經(jīng)能代替人類做閱讀理解了

1月11日,機器閱讀理解領域頂級賽事SQuAD (Stanford Question Answering Dataset) 刷新排名,阿里巴巴憑借82.440的精確匹配(Exact Match)分數(shù),代表人工智能首次在閱讀理解能力比賽上超越人類。

親,阿里AI已經(jīng)能代替人類做閱讀理解了

什么是機器閱讀理解?

讓機器像人類一樣閱讀文本,進而根據(jù)對該文本的理解來回答問題,這種閱讀理解就像是讓計算機來做我們高考英語的閱讀理解題。機器閱讀理解是當前AI界前沿的一個火熱主題,主要涉及到深度學習、自然語言處理和信息檢索。如果哪一天機器真能具備相當高水準的閱讀理解能力,那么很多應用便會體現(xiàn)出真正的人工智能。

比如搜索引擎會在真正理解文章內(nèi)容基礎上去回答用戶的問題,而不是目前這種以關鍵詞匹配的方式去響應用戶,這對于搜索引擎領域帶來的巨變很可能是顛覆性的。

機器閱讀系統(tǒng)也能幫助醫(yī)生、律師以及其他專家更快地閱讀專業(yè)的醫(yī)學或判例文檔,從而讓他們有更多的時間對病人進行治療或構思合法抗辯。

它也能幫助人們更快地發(fā)現(xiàn)隱藏在汽車使用說明書或稅務條例中的信息,節(jié)約時間。

微軟深度學習技術中心合作研究經(jīng)理高劍鋒說:“世界中有大量信息,尤其是互聯(lián)網(wǎng)中;為了讓信息產(chǎn)生價值,需要將其轉化為知識,而機器閱讀技術可以在信息與知識之間搭建一個橋梁

SQuAD:機器閱讀理解界的頂級賽事

很長一段時間以來,自然語言處理的研究都是基于句子級別的閱讀理解,但長文本的理解問題一直是研究的一個難點,因為這涉及到句子之間的連貫、上下文和推理等更高維的研究內(nèi)容。而大數(shù)據(jù)的發(fā)展讓學者們看到了這一研究方向的曙光。通過長文本點對點的學習,即對句子、短語、上下文進行建模,這一過程需要運用人工智能的推理能力。

斯坦福大學在2016年通過亞馬遜眾包平臺(AMT)建立的SQuAD 數(shù)據(jù)集是機器閱讀這一新興領域的核心基準,它包含 10 萬個(問題,原文,答案)三元組,規(guī)模遠超之前的所有數(shù)據(jù)集:每個問題由人為提出,有且僅有一個維基百科文章的段落與其相關;答案來自該段落的某一片段且答案類型較為豐富;推理出答案的過程具有多樣性且具有適中的難度。

親,阿里AI已經(jīng)能代替人類做閱讀理解了

▲當前的公開數(shù)據(jù)集對比

SQuAD文本理解挑戰(zhàn)賽則被斯坦福大學打造為“機器閱讀理解界的ImageNet”,吸引了包括谷歌、卡內(nèi)基.梅隆大學、斯坦福大學、微軟亞洲研究院、艾倫研究院、IBM、Facebook等知名企業(yè)研究機構和高校的深度參與,共同推進機器閱讀理解的進步。

人工智能在閱讀完數(shù)據(jù)集中的一篇短文之后,需要回答若干個基于文章內(nèi)容的問題,然后與標準答案進行比對,得出精確匹配(Exact Match)和模糊匹配(F1-score)的結果,評分結果將實時地在SQuAD官網(wǎng)上進行更新。

阿里巴巴人工智能機器閱讀理解打破世界紀錄

2017年,微軟亞洲研究院的自然語言計算研究組持續(xù)長居SQuAD榜首,但仍遠未達到人類的水平。2018年開年,阿里巴巴 iDST NLP就打破紀錄,創(chuàng)造了歷史。SQuAD排行榜上,阿里和微軟亞洲研究院、騰訊DPDAC NLP、科大訊飛與哈工大聯(lián)合實驗室、浙江大學均位于前十,讓世界看到中國團隊的霸榜。

親,阿里AI已經(jīng)能代替人類做閱讀理解了

▲SQuAD排行榜

此次技術的重大突破源于阿里巴巴研究團隊提出的“基于分層融合注意力機制”的深度神經(jīng)網(wǎng)絡模型。該模型能夠模擬人類在做閱讀理解問題時的一些行為,包括結合篇章內(nèi)容審題,帶著問題反復閱讀文章,避免閱讀中遺忘而進行相關標注等。

阿里巴巴自然語言處理首席科學家司羅表示,對于解決Wiki類(維基百科類)客觀知識問答,機器已經(jīng)取得非常好的結果,未來將繼續(xù)向對通用內(nèi)容的“能理解會思考”的終極目標邁進。

目前,這項技術也已經(jīng)在阿里巴巴內(nèi)部被廣泛使用。比如,每年雙11都會有大量的顧客對活動規(guī)則進行咨詢。阿里小蜜團隊通過使用機器閱讀技術,讓機器直接對規(guī)則進行閱讀,為用戶提供規(guī)則解讀服務,是最自然的交互方式。

親,阿里AI已經(jīng)能代替人類做閱讀理解了

▲阿里小蜜人機交互流程

未來的方向

機器閱讀界風起云涌,火力全開,人類真的會被超越嗎?

微軟亞洲研究院自然語言處理組首席研究員韋福如表示,即使機器閱讀團隊的系統(tǒng)可以在SQuAD數(shù)據(jù)集中和人表現(xiàn)的一樣好,并不意味著機器可以像人一樣真正閱讀和理解,這是未來必須要面臨的一個挑戰(zhàn)。

韋福如說,人類理解文本的能力是多維度的,結合多任務(尤其是閱讀理解相關的任務,例如閱讀理解之后進行摘要和問答)的模型非常值得關注和期待。更進一步,雖然SQuAD提供了比較大的人工標注數(shù)據(jù)集,如何有效且高效地使用未標注的數(shù)據(jù)也是非常值得期待的研究課題和方向。從任務上看,目前SQuAD的任務定義中答案是原文的某個子片段,而實際中人可能讀完文章之后需要進行更復雜的推理、并組織新的文字表達出來。

“目前我們的算法基本都是抽取型的方式,未來生成型的算法也值得更多的探索和研究。另外,目前機器閱讀理解關注的都是理解客觀信息的能力,未來機器理解文字里面所表達出來的主觀信息(例如情感)也是非常有趣并值得關注的方向。”韋福如說道。


關注【AI商業(yè)報道】,回復【2017白皮書】,可獲得干貨《2017人工智能產(chǎn)業(yè)發(fā)展白皮書》!

親,阿里AI已經(jīng)能代替人類做閱讀理解了

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2018-02-08
親,阿里AI已經(jīng)能代替人類做閱讀理解了
1月11日,機器閱讀理解領域頂級賽事SQuAD刷新排名。阿里巴巴憑借82 440的精確匹配分數(shù),代表人工智能首次在閱讀理解能力比賽上超越人類。

長按掃碼 閱讀全文