百度技術(shù)委員會(huì)主席吳華:NLP技術(shù)要讓機(jī)器具有人類語(yǔ)言交流能力

大數(shù)據(jù)

作者:尹天琦

“要讓人工智能走進(jìn)人類的生活,就需要讓它們具有與人類交流的語(yǔ)言能力。自然語(yǔ)言處理(NLP)是人工智能的核心領(lǐng)域之一,是解決這一問(wèn)題的核心途徑。研究好NLP就能讓計(jì)算機(jī)理解和生成人類語(yǔ)言,以我們熟悉的方式服務(wù)人類?!卑俣燃夹g(shù)委員會(huì)主席吳華在國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLPCC)上詮釋了NLP技術(shù)的重要意義。

NLPCC?2017由中國(guó)計(jì)算機(jī)協(xié)會(huì)(CCF)主辦,是具有國(guó)際影響力的學(xué)術(shù)與創(chuàng)新交流平臺(tái)。百度技術(shù)委員會(huì)主席、百度自然語(yǔ)言處理部門技術(shù)負(fù)責(zé)人吳華應(yīng)邀出席,并在會(huì)上介紹了百度NLP技術(shù)的發(fā)展現(xiàn)狀和產(chǎn)品應(yīng)用能力。

吳華表示,百度NLP以大數(shù)據(jù)和知識(shí)圖譜為立足點(diǎn),基于機(jī)器學(xué)習(xí)和語(yǔ)言學(xué)方面的積累,擁有一流的文本理解與生成技術(shù),由此構(gòu)建起問(wèn)答、機(jī)器翻譯和對(duì)話系統(tǒng),并以平臺(tái)化的方式對(duì)更多產(chǎn)品進(jìn)行支持,如NLPC(NLP?Cloud)和百度AI開放平臺(tái)。百度NLP技術(shù)已經(jīng)應(yīng)用在搜索、信息流、DuerOS等百度的眾多產(chǎn)品上。

憑借多年的技術(shù)積累,百度研發(fā)了一套聯(lián)合統(tǒng)一的詞法分析方案,極大提高了機(jī)器正確識(shí)別和標(biāo)注句子中詞的概率。吳華表示,詞法分析是自然語(yǔ)言處理的基礎(chǔ),其準(zhǔn)確程度直接影響后續(xù)一系列分析處理任務(wù)的效果。百度的這套方案將專名識(shí)別(NE?Recognition)、分詞和詞性標(biāo)注統(tǒng)一在一個(gè)框架中,得到語(yǔ)義更合理和完整的詞語(yǔ)切分與詞性標(biāo)注序列;另一方面,百度特有的海量點(diǎn)擊反饋數(shù)據(jù)輔助詞性標(biāo)注將詞性標(biāo)注語(yǔ)料從20萬(wàn)迅速擴(kuò)充到1億3千萬(wàn)個(gè)句子,標(biāo)記數(shù)據(jù)精度超過(guò)95%,提升了自動(dòng)分詞和詞性標(biāo)注的準(zhǔn)確率。

在介紹百度先進(jìn)的文本理解與生成技術(shù)能力時(shí),吳華強(qiáng)調(diào),不同應(yīng)用對(duì)文本理解的程度和解析粒度的要求不同,一套固定的解決方案無(wú)法滿足所有需求。目前,百度NLP不僅擁有通用的理解技術(shù),更面向不同任務(wù)提供相應(yīng)的文本理解技術(shù),實(shí)現(xiàn)更精準(zhǔn)的意圖理解、推薦、人機(jī)對(duì)話等。在搜索中,使用基于深度學(xué)習(xí)模型的多層次語(yǔ)義匹配技術(shù),搜索結(jié)果的關(guān)聯(lián)度將大幅提升。例如,在應(yīng)用深度學(xué)習(xí)模型前,搜索“水泵忽強(qiáng)忽弱”結(jié)果是不相關(guān)的,應(yīng)用之后的關(guān)聯(lián)度大幅提升。而在基于知識(shí)庫(kù)問(wèn)答和面向任務(wù)的對(duì)話系統(tǒng)中,使用精細(xì)的句法分析和語(yǔ)義角色標(biāo)注技術(shù),可以準(zhǔn)確定位和理解用戶意圖。

大數(shù)據(jù)

篇章理解是文本理解的另一核心組成,吳華表示,“NLP技術(shù)可以通過(guò)用戶興趣網(wǎng)絡(luò)和文檔語(yǔ)義網(wǎng)絡(luò)形成標(biāo)簽圖譜,最終得到‘不搜即得’的智能推薦?!痹摷夹g(shù)以用戶興趣為出發(fā)點(diǎn),依托從搜索、貼吧、百科等不同渠道獲得的有明確含義的主題、話題或?qū)嶓w等內(nèi)容標(biāo)簽,形成可實(shí)時(shí)更新的關(guān)注點(diǎn)標(biāo)簽圖譜。在下面這張關(guān)注點(diǎn)標(biāo)簽圖譜中,“AI”話題與“科技”、“VR”等話題,“烏鎮(zhèn)峰會(huì)”等事件關(guān)聯(lián)在一起。基于關(guān)注點(diǎn)圖譜對(duì)文檔內(nèi)容進(jìn)行標(biāo)注,可以更好地描述用戶與文章之間的關(guān)系,從用戶的視角對(duì)篇章進(jìn)行更合理的分類和有效的推薦。

大數(shù)據(jù)

吳華在現(xiàn)場(chǎng)向觀眾展示了兩首五言絕句,多數(shù)人都難以區(qū)分哪一首是由百度機(jī)器創(chuàng)作的。目前,百度人工智能撰寫的文章通過(guò)消息推送、資訊流、開放訂閱、百家號(hào)等途徑進(jìn)行分發(fā),供用戶閱讀。

大數(shù)據(jù)

基于上述多項(xiàng)技術(shù)能力的積累,百度已經(jīng)構(gòu)建起問(wèn)答、對(duì)話和機(jī)器翻譯三大系統(tǒng)。在問(wèn)答方面,面對(duì)用戶提出的問(wèn)題,系統(tǒng)可基于知識(shí)圖譜加以回答。吳華坦言,沒(méi)有理解或推理仍是問(wèn)答領(lǐng)域的巨大挑戰(zhàn),對(duì)此,百度日前推出了世界上最大的中文機(jī)器閱讀理解數(shù)據(jù)集——DuReader,該數(shù)據(jù)集基于真實(shí)應(yīng)用需求,所有問(wèn)題來(lái)源于百度搜索用戶的真實(shí)問(wèn)題,文檔來(lái)自全網(wǎng)真實(shí)采樣的網(wǎng)頁(yè)文檔和知道UGC文檔,答案基于問(wèn)題與文檔人工撰寫生成,目前擁有20萬(wàn)個(gè)問(wèn)題和100萬(wàn)個(gè)文檔;同時(shí),數(shù)據(jù)集標(biāo)注了問(wèn)題類型、實(shí)體和觀點(diǎn)等豐富信息,彌補(bǔ)了現(xiàn)有主流數(shù)據(jù)集對(duì)于觀點(diǎn)類問(wèn)題覆蓋不足的問(wèn)題。

對(duì)話系統(tǒng)以基于意圖圖譜的核心技術(shù)與用戶進(jìn)行多輪交互(multi-turn?interaction)。吳華說(shuō)道,目前面向任務(wù)的對(duì)話模式將不同的任務(wù)分發(fā)給對(duì)應(yīng)的bot,使任務(wù)管理低效而復(fù)雜,而意圖圖譜將所有意圖容納到一張圖中,從而能夠進(jìn)行連續(xù)一致的對(duì)話管理。

吳華表示,百度已經(jīng)將NLP技術(shù)應(yīng)用在眾多百度的產(chǎn)品當(dāng)中。2015年5月,百度將神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)應(yīng)用到百度在線翻譯服務(wù)中,推出了全球首個(gè)基于深度學(xué)習(xí)的大規(guī)模在線翻譯系統(tǒng)。今年,百度還推出了一款兼具Wi-Fi與翻譯雙重功能的Wi-Fi翻譯機(jī),自帶80多個(gè)國(guó)家的移動(dòng)數(shù)據(jù)流量,支持實(shí)時(shí)語(yǔ)音翻譯。

另外,百度也通過(guò)平臺(tái)化的方式對(duì)更多產(chǎn)品進(jìn)行支持。百度開發(fā)的自然語(yǔ)言理解一站式解決平臺(tái)NLPC(NLP?Cloud),已經(jīng)可以提供25種NLP模塊,每天被調(diào)用超過(guò)2000億次。百度AI開放平臺(tái)開放了80多項(xiàng)百度核心AI技術(shù)能力,其中包含NLP模塊、UNIT、翻譯在內(nèi)的十多項(xiàng)自然語(yǔ)言處理方面的能力,供開發(fā)者與合作伙伴接入。

近幾年來(lái),NLP技術(shù)的發(fā)展受到了世界各國(guó)的高度重視。在美國(guó)AI創(chuàng)業(yè)公司中,自然語(yǔ)言處理領(lǐng)域的創(chuàng)業(yè)公司數(shù)量最多。中國(guó)的AI創(chuàng)業(yè)公司中自然語(yǔ)言處理領(lǐng)域的創(chuàng)業(yè)公司位居第三。NLP技術(shù)的發(fā)展和應(yīng)用正推動(dòng)人機(jī)交互走進(jìn)一個(gè)新的時(shí)代。吳華指出,百度自然語(yǔ)言處理技術(shù)將持續(xù)高速優(yōu)化升級(jí),持續(xù)為開發(fā)者、合作伙伴賦能。智能時(shí)代即將來(lái)到,百度將讓AI更懂人類。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-11-29
百度技術(shù)委員會(huì)主席吳華:NLP技術(shù)要讓機(jī)器具有人類語(yǔ)言交流能力
作者:尹天琦 “要讓人工智能走進(jìn)人類的生活,就需要讓它們具有與人類交流的語(yǔ)言能力。自然語(yǔ)言處理(NLP)是人工智能的核心領(lǐng)域之一,是解決這一問(wèn)題的核心途徑。研

長(zhǎng)按掃碼 閱讀全文