極光開發(fā)者大會:達(dá)觀數(shù)據(jù)王文廣談文本智能處理

2018年11月17日,由國內(nèi)領(lǐng)先的移動大數(shù)據(jù)服務(wù)平臺——極光大數(shù)據(jù)舉辦的首屆極光開發(fā)者大會在深圳召開,近千位互聯(lián)網(wǎng)公司技術(shù)領(lǐng)袖、合作伙伴、開發(fā)者齊聚一堂,圍繞大數(shù)據(jù)、人工智能、移動開發(fā)等廣受關(guān)注的熱點話題,共同探討移動開發(fā)的下半場,構(gòu)建健康的開發(fā)者生態(tài)。

達(dá)觀數(shù)據(jù)王文廣作為人工智能分論壇的重要嘉賓出席本次大會,并發(fā)表《文本智能處理在企業(yè)的應(yīng)用實踐》的主題演講。

極光開發(fā)者大會:達(dá)觀數(shù)據(jù)王文廣談文本智能處理

文本智能處理在企業(yè)的應(yīng)用實踐

主講人:達(dá)觀數(shù)據(jù)王文廣

大家好,我是來自達(dá)觀數(shù)據(jù)的王文廣。達(dá)觀數(shù)據(jù)是一家專注于做文本智能處理的公司,主要集中在利用NLP技術(shù)幫助文本工作者提升效率,降低成本。

一、文本智能處理概述及其應(yīng)用難點

我們今天的主題是文本智能處理。

文本智能處理在各領(lǐng)域的需求非常多。我們?nèi)粘D芤姷礁鞣N各樣的文本,律所、金融機(jī)構(gòu)、媒體、政府等每天都要處理很多不同形式的文本。對人類來說,進(jìn)行文字處理是一個非常自然的形式,我們可以利用不同的語境去理解文字。但由于風(fēng)俗習(xí)慣、語言習(xí)慣,以及人所處的環(huán)境等隱含條件的存在,準(zhǔn)確地理解文字對于計算機(jī)來說是非常復(fù)雜的。如何讓計算機(jī)準(zhǔn)確地理解文字,這是我們目前面臨的一大難題。

為了解決這個難題,學(xué)術(shù)界、工業(yè)界的科學(xué)家們組織了三種不同層級的分析:詞法分析、句法分析和語義分析。

1、詞法分析:把句子截斷成一個個的詞,分別標(biāo)注每個詞是什么詞性,從而幫助計算機(jī)從詞或者字的層級上理解文字;

2、句法分析:把句子中的不同成分識別出來,比如主謂賓、定狀補(bǔ)等,從而幫助計算機(jī)理解文字;

3、語義分析:通過各種算法幫助計算機(jī)理解文字里的隱含意思。

在詞法分析中,可能會遇到一詞多意的情況。比如搜索時,你可能會想到一些關(guān)鍵詞,但是這個關(guān)鍵詞除了你能想到的以外可能還有別的表達(dá)方式,如果計算機(jī)能夠理解其他的表達(dá)方式,它就可以更好地把結(jié)果反饋給你。還有指代的問題,你我他對于人類來說是很容易理解的事情,但是對于計算機(jī)來說,還遠(yuǎn)遠(yuǎn)沒有達(dá)到可以完美解決的地步。

在句法分析中,相同的字詞在不同的上下文里可能會有不同的含義。有時候,文字順序的變化對于人類來說完全不會造成理解上的問題,但是對計算機(jī)來說就會造成一定難度。

語義分析是更難的問題,因為它涉及到上下文、語境、不同地方風(fēng)俗習(xí)慣的表達(dá)問題。

為了解決這些問題,我們構(gòu)建了一個模型,把很多人類存在的文字輸入到模型里,讓模型去理解人類是如何表達(dá)這些意思的。當(dāng)面對新的問題時,這個模型就能夠很好得處理這些問題,并把處理結(jié)果以一種合適的方式展現(xiàn)出來。

二、深度學(xué)習(xí)技術(shù)在文本智能處理上的應(yīng)用

剛才介紹到文本智能處理中遇到的一些問題。為了解決這些問題,我們發(fā)明了很多技術(shù)。深度學(xué)習(xí)便是其中一種。

人工智能的范疇里,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個子領(lǐng)域,而機(jī)器學(xué)習(xí)是人工智能中的很小的一塊。傳統(tǒng)的機(jī)器學(xué)習(xí)需要像專家一樣去理解文字,把文字中有用的信息提取出來,再通過機(jī)器學(xué)習(xí)的方式去建模。而深度學(xué)習(xí)可以把人工特征的部分做到模型里,在模型中解決特征抽取的問題。

深度學(xué)習(xí)并非有一個完全規(guī)整的數(shù)據(jù)就可以。當(dāng)面向一個真實應(yīng)用場景或者一個真正能為企業(yè)所用的項目時,它還需要有很多預(yù)處理工作,這些一般都是非常瑣碎的。面向不同的業(yè)務(wù)場景時,我們可以應(yīng)用文本分類、情感分析、中文分詞、機(jī)器翻譯等。

為了處理這些問題,近幾年出現(xiàn)了很多算法:從2013年開始的Word2Vec,2014年的Glove,2016年的FastText,再到今年2月的ELMo和10月的BERT。BERT模型全面超越了前面幾個模型。

BERT中主要有兩個模型:一個叫Masked LM,也叫遮掩的語言模型,隨機(jī)遮掩掉一個句子中的一些字或者詞,讓計算機(jī)預(yù)測被遮掩的部分。比如把“我來自達(dá)觀數(shù)據(jù)”中的“自”和“觀”遮掩掉,讓計算機(jī)來預(yù)測“達(dá)”前后分別是什么字,這需要通過大規(guī)模的預(yù)料進(jìn)行學(xué)習(xí)和預(yù)測;另一個叫Next Sentence Prediction,用來判斷句子放在上下文中是否是合理的。舉一個唐詩中的例子,“花徑不曾緣客掃”,如果輸入“花徑不曾緣客掃,蓬門今始為君開”,這個模型會顯示“是”;而輸入“花徑不曾緣客掃,一枝紅杏出墻來”,會顯示“否”。

BERT模型可以幫助理解詞或者字在大規(guī)模預(yù)料的上下文中所表達(dá)的不同意思,它出現(xiàn)以后,刷新了所有NLP相關(guān)領(lǐng)域的各種評測分?jǐn)?shù)。

BERT模型只能理解字、詞或者文本的意思,但是理解本身并不是我們追求的目的,我們要的是真正地去處理問題,比如做情感分析。于是LSTM就成為文本處理自然而然的選擇,它既可以做文本分類,也可以用來寫一些簡單的句子或者詩詞。

LSTM的訓(xùn)練速度非常慢,于是我們又從TextCNN開始探索將CNN應(yīng)用于文本智能處理。DPCNN是CNN的集大成者,它是一個2017年發(fā)布的模型,可以在不丟失結(jié)構(gòu)信息的情況下,建模更復(fù)雜的非線性特征。

如何將深度學(xué)習(xí)應(yīng)用到NLP常見的場景下呢?我們可以通過序列標(biāo)注解決信息抽取的問題,將信息分為B(Begin)M(Middle)E(End)S(Single)四個類別,從而對詞進(jìn)行標(biāo)注和判別。

對于自然語言處理來說,低頻詞匯和專用領(lǐng)域詞匯是很大的難點。單純的Bi-LSTM層并不能很好地解決問題。通過將專用詞典的某種表示和原始的字向輸入、拼接在一起作為CRF層的輸入,在一定程度上可以解決這個問題。

當(dāng)然,深度學(xué)習(xí)也有缺點,比如它需要非常多的訓(xùn)練語料、計算資源和存儲資源。當(dāng)這些條件無法達(dá)到時,我們需要學(xué)會權(quán)衡。通過Deep&Wide,達(dá)到更好的效果。

三、知識圖譜技術(shù)在文本智能處理上的應(yīng)用

除了深度學(xué)習(xí),知識圖譜技術(shù)也能夠幫助我們更好地做文本處理,它最大的優(yōu)點是可以把人類專家的知識結(jié)合進(jìn)來。

知識圖譜分為通用型知識圖譜和行業(yè)垂直型知識圖譜。通用型知識圖譜是一些大型搜索公司做的“結(jié)構(gòu)化的百科知識”;而行業(yè)垂直型知識圖譜則是面向某一特定領(lǐng)域的,如金融、法律、財會、教育等,以專家知識為主,是“語義層面的行業(yè)知識庫”。實體、屬性和關(guān)系是知識圖譜的核心三元組,基于已有的三元組,可以推導(dǎo)出新的關(guān)系。通過深度學(xué)習(xí),知識的表示正在從三元組邁向稠密向量。

知識圖譜的構(gòu)建是一個復(fù)雜的系統(tǒng)工程,涉及Schema定義、知識抽取、知識存儲、知識融合和知識推理等過程。

1、Schema定義:定義知識圖譜需要非常多的業(yè)務(wù)專家。一般使用自上而下的方式構(gòu)建Schema(本體),自下而上構(gòu)建方法則需對最終進(jìn)入Schema庫的內(nèi)容進(jìn)行審核和確認(rèn)。

2、知識抽取:定完Schema之后,需要通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、或其他技術(shù)把相應(yīng)的知識抽取出來。一般而言,結(jié)構(gòu)化、半結(jié)構(gòu)化的文本可以很好地轉(zhuǎn)化為知識圖譜;但非結(jié)構(gòu)化文本,比如新聞、法律相關(guān)的文本就需要通過各種技術(shù)進(jìn)行知識抽取。在不同的場景下,我們可以采用不同的知識抽取算法。

3、知識融合:多源知識融合是巨大的挑戰(zhàn)。相同實體、概念、屬性和關(guān)系等可能存在于不同的數(shù)據(jù)源中,比如維基百科、百度百科、影視劇、二十四史中都有“蘇東坡”這個實體;不同數(shù)據(jù)源對相同實體、概念、屬性和關(guān)系等可能存在不同的描述,比如蘇東坡,蘇軾、東坡居士、子瞻、蘇學(xué)士等;知識融合存在多種叫法不同但內(nèi)容相近的名稱,如實體對齊、實體匹配、實體消岐等;多語言也是一個挑戰(zhàn),不同的翻譯經(jīng)常出現(xiàn),比如美國總統(tǒng)川普,特朗普,Trump等。

4、知識存儲:一個好的存儲系統(tǒng)才能夠更好地支持檢索和使用。比較傳統(tǒng)的知識存儲系統(tǒng)是RDF、Apache Jena等等,現(xiàn)在比較流行的是JanusGraph。

5、知識推理:知識推理能夠?qū)χR圖譜進(jìn)行補(bǔ)充和完善。知識推理的方法有基于符號邏輯的、基于統(tǒng)計的,以及最新的基于深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的等各類方法。對不斷演化的知識圖譜進(jìn)行質(zhì)量評估是保證知識圖譜質(zhì)量的關(guān)鍵一環(huán)。

在實踐過程中,關(guān)于數(shù)據(jù)的有效合理使用,有幾點經(jīng)驗:

1、優(yōu)先使用確定的結(jié)構(gòu)化數(shù)據(jù)庫中的數(shù)據(jù);

2、優(yōu)先使用置信度高的數(shù)據(jù)源;

3、結(jié)合外部互聯(lián)網(wǎng)數(shù)據(jù)預(yù)料和內(nèi)部企業(yè)自由文檔資料;

4、行業(yè)內(nèi)部積累的專業(yè)詞典、行業(yè)術(shù)語、經(jīng)驗規(guī)則比較重要。

以上就是對構(gòu)建和使用知識圖譜的簡單總結(jié),這個過程是不斷完善、不斷進(jìn)化的。

四、達(dá)觀數(shù)據(jù)在文本智能處理上的應(yīng)用實踐

接下來介紹一下達(dá)觀數(shù)據(jù)在文本處理領(lǐng)域的一些應(yīng)用場景。

1、關(guān)鍵信息抽取:從大量文本中自動提取出指定類型的關(guān)鍵信息例如合同、票據(jù)、企業(yè)資料、人事簡歷、法律文書等文檔中的核心內(nèi)容,進(jìn)行自動識別和抽取;關(guān)鍵信息抽取也是構(gòu)建領(lǐng)域知識圖譜的關(guān)鍵技術(shù)之一。

2、自動審核:為企業(yè)自動化抽取文檔的關(guān)鍵信息、對比不同版本的文檔差異、智能糾正錯誤文字內(nèi)容,以及發(fā)現(xiàn)文書中潛在的法律風(fēng)險,有效提升專業(yè)人員效率。

3、智慧招聘:通過構(gòu)建行為畫像,預(yù)測算法,從而預(yù)測職位需求,達(dá)到職位與簡歷之間的智能匹配,幫助HR更好的招聘。

4、融合知識圖譜的智能推薦系統(tǒng):個性化推薦 (千人千面);場景化推薦 (沙灘鞋->游泳衣、防曬霜、海島度假產(chǎn)品);任務(wù)型推薦 (牛肉卷、羊肉卷->火鍋底料、電磁爐? ;螺絲、螺釘->多功能螺絲刀);冷啟動環(huán)境下推薦 (語義標(biāo)簽:攝影VS旅游;相同導(dǎo)演或相同主演的電影);跨領(lǐng)域推薦 (微博商品推薦?用戶經(jīng)常曬九寨溝、黃山、泰山的照片->登山裝備);知識型推薦 (清華大學(xué)、北京大學(xué)->復(fù)旦大學(xué)(985名校);阿里、百度->騰訊(互聯(lián)網(wǎng)BAT等)。

5、垂直搜索引擎:垂直搜索引擎可以幫助企業(yè)人員更好地進(jìn)行企業(yè)資料和應(yīng)用內(nèi)搜索,更快、更準(zhǔn)確地找到所需的資料,提高效率。

6、場景化分析系統(tǒng):如輿情分析、熱點分析、軍事情報分析、商業(yè)情報分析等。

我們希望未來能夠幫助到越來越多的文本專業(yè)寫作人員或?qū)I(yè)職位提高效率,讓更多的人能有更多時間用來做更面向未來的事情。

我今天的分享就到這里,謝謝大家。

關(guān)于極光

極光(納斯達(dá)克股票代碼:JG)成立于2011年,是中國領(lǐng)先的移動大數(shù)據(jù)服務(wù)平臺。極光專注于為移動應(yīng)用開發(fā)者提供穩(wěn)定高效的消息推送、即時通訊、統(tǒng)計分析、社會化組件和短信等開發(fā)者服務(wù)。截止到2018年9月份,極光已經(jīng)為36.9萬移動開發(fā)者和99.1萬款移動應(yīng)用提供服務(wù),其開發(fā)工具包(SDK)安裝量累計近174億,月度獨立活躍設(shè)備近10.3億部?;诤A繑?shù)據(jù)和洞察積累,極光已將業(yè)務(wù)拓展至大數(shù)據(jù)服務(wù)領(lǐng)域,包括精準(zhǔn)營銷(極光效果通)、金融風(fēng)控、市場洞察以及商業(yè)地理服務(wù)(極光iZone)。極光將繼續(xù)借助人工智能與機(jī)器學(xué)習(xí)為移動大數(shù)據(jù)賦能,致力于為社會和各行各業(yè)提高運(yùn)營效率,優(yōu)化決策制定。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-12-12
極光開發(fā)者大會:達(dá)觀數(shù)據(jù)王文廣談文本智能處理
2018年11月17日,由國內(nèi)領(lǐng)先的移動大數(shù)據(jù)服務(wù)平臺——極光大數(shù)據(jù)舉辦的首屆極光開發(fā)者大會在深圳召開,近千位互聯(lián)網(wǎng)公司技術(shù)領(lǐng)袖、合作伙

長按掃碼 閱讀全文