從知識獲取到應(yīng)用,華為云知識計算三大關(guān)鍵技術(shù)揭秘

AI 行業(yè)落地一直是業(yè)界的一個難題,華為云在探索AI落地之道的過程中發(fā)現(xiàn),各個行業(yè)都有各種形態(tài)的知識,這些知識存在于不同的媒介,比如各種專業(yè)書籍記錄的學(xué)科行業(yè)知識,百科網(wǎng)站上的基本常識等。其中,許多行業(yè)知識是行業(yè)專家經(jīng)驗的沉淀,甚至是只存在于老專家腦海里的不傳之秘。這些知識代表了行業(yè)智慧,同時也是實現(xiàn)行業(yè)AI落地的關(guān)鍵。

基于在各個行業(yè)的成功實踐,2020年華為云發(fā)布了業(yè)界首個全生命周期知識計算解決方案,提供從知識獲取、建模、管理到應(yīng)用的全套決方案,賦能行業(yè)用戶去構(gòu)建屬于企業(yè)自己的知識計算平臺。

7月22日,華為云TechWave人工智能專題日舉辦,華為云自然語言處理專家在會上分享了從知識獲取到應(yīng)用的整個流程中,包含的知識計算幾個關(guān)鍵技術(shù):知識獲取、知識建模、知識應(yīng)用。

關(guān)鍵技術(shù)一:知識獲取

知識計算首先要獲取知識,知識獲取的一個核心技術(shù)是信息抽取。信息抽取涵蓋范圍廣泛,比如實體抽取是從文本中抽取類似人名、地名等實體詞或者詞組。如果要構(gòu)建知識圖譜,就需要抽取更復(fù)雜的由主語、謂詞、賓語構(gòu)成的三元組。比如從《朝花夕拾》是文學(xué)家魯迅的散文集,1928年由北京未名社出版。從這個句子中可以抽取“朝花夕拾”、“出版社”、 “未名社”這個三元組,而每個三元組都代表了一個客觀事實,比如這個三元組表達(dá)的就是朝花夕拾的出版社是未名社。針對這類三元組的抽取,華為云研發(fā)了基于閱讀理解框架和級聯(lián)思想的信息抽取算法,可以用一個框架統(tǒng)一建模實體的抽取和關(guān)系的抽取,效果相比傳統(tǒng)方法有顯著提升。

實際落地過程中,往往還存在標(biāo)注人力成本高,標(biāo)注數(shù)據(jù)不足的情況。針對這種情況,華為云還發(fā)展了一系列小樣本信息抽取方法,可以有效降低對標(biāo)注數(shù)據(jù)的依賴。比如基于meta-learning的三元組抽取方法,在部分場景中,在保證準(zhǔn)確率基本持平的情況下,標(biāo)注數(shù)據(jù)量可以從兩千條左右下降到幾十到百條。這樣就降低了知識獲取的難度,同時也就降低了用戶使用的門檻。

除了信息抽取外,知識獲取還有一個很重要的步驟是實體鏈接,因為從文本抽取到的信息往往是有歧義的,需要把信息鏈接到知識圖譜中正確的實體上。比如,李娜在澳洲公開賽打敗了齊布爾科娃,這句話中有三個實體,李娜、澳大利亞公開賽、齊布爾科娃,這些實體在知識庫都有不止一個候選實體,因為叫李娜這個名字的人很多,到底哪一個才是這個句子里說的李娜呢?

針對這種短文本中的實體鏈接問題,華為云首次提出了M3框架,即multi-turn multi-choice MRC framework,即基于多輪多項選擇的閱讀理解框架?;谠摽蚣?,能很好地完成實體鏈接任務(wù),準(zhǔn)確率相對傳統(tǒng)方法提升了大約5個百分點。華為云提出的M3框架相關(guān)論文,發(fā)表在人工智能國際頂級學(xué)術(shù)會議AAAI 2021上。

關(guān)鍵技術(shù)二:知識建模

完成知識獲取以后,還需要對知識建模。知識建模中,知識融合/實體融合是一個非常關(guān)鍵的步驟。因為絕大多數(shù)的知識圖譜都是為特定的目的構(gòu)造的,這會導(dǎo)致即使是相同的概念,在不同的知識圖譜中也會有不同的描述;同時相同的描述也有可能代表不同的概念。比如,在一個圖譜中蘋果是一種水果,在另外一個圖譜中,蘋果卻是一家公司。針對知識融合問題,華為云研發(fā)了多種算法和解決方案,其中包括在多模態(tài)知識圖譜實體融合方面的原創(chuàng)工作。

針對多模態(tài)知識圖譜的實體對齊問題,華為云提出了一種多模態(tài)知識嵌入方法,生成三種模態(tài)知識的表示;然后設(shè)計了一種多模態(tài)知識融合方法,以融合三種模態(tài)的知識表示。最后采用了交互訓(xùn)練的方式,端到端的優(yōu)化華為云提出的MMEA模型。華為云提出的這個模型也發(fā)表在了去年知識工程的國際學(xué)術(shù)會議KSEM上,并獲得唯一的最佳論文獎。

在多模態(tài)知識嵌入模塊中,華為云提取關(guān)系、視覺、數(shù)值信息,分別對不同模態(tài)的知識做嵌入表征,去補(bǔ)充實體的有效特征。

多模態(tài)知識融合模塊的作用則是集成多模態(tài)的知識表示。在多模態(tài)知識融合模塊里,華為云將多模態(tài)知識嵌入從各自分離的空間中遷移到一個統(tǒng)一的空間里。統(tǒng)一空間的學(xué)習(xí)使得多模態(tài)的特征能夠互相受益,利用多模態(tài)的互補(bǔ)性,提升了實體對齊任務(wù)的準(zhǔn)確率。

關(guān)鍵技術(shù)三:知識應(yīng)用

完成知識建模以后,可以做多種應(yīng)用,比如事理圖譜。什么是事理圖譜呢?知識圖譜是以實體為核心的,主要建模的是實體之間的關(guān)系,通過三元組來表達(dá)一些客觀事實。事理圖譜則是以事件為核心,主要建模的是事件之間的因果、順承等關(guān)系。

另外一個應(yīng)用是將知識融入到預(yù)訓(xùn)練模型中。預(yù)訓(xùn)練模型是近兩年最熱門的技術(shù)之一,比如BERT、GPT3、華為云盤古大模型等。這些預(yù)訓(xùn)練模型的一個共同特征是利用大規(guī)模的無標(biāo)注的文本數(shù)據(jù),通過自監(jiān)督的方式訓(xùn)練一個模型,從而使得這些模型里面蘊(yùn)含了重要的先驗信息或者說知識。但是大模型使用的語料都是通用領(lǐng)域的,沒有行業(yè)屬性,模型設(shè)計與訓(xùn)練也沒有顯式融入行業(yè)知識。針對這種情況,華為云提出了一個可以融合醫(yī)療領(lǐng)域知識的預(yù)訓(xùn)練模型,BERT-MK,該模型可以顯式地將建模好的醫(yī)療行業(yè)知識,比如醫(yī)療行業(yè)的知識圖譜,融入到預(yù)訓(xùn)練模型中。融入了行業(yè)之后,在醫(yī)療相關(guān)的下游任務(wù)上,該模型都表現(xiàn)出了比通用模型更好的效果。

有了融入了醫(yī)療知識的預(yù)訓(xùn)練模型,可以進(jìn)一步把它應(yīng)用到醫(yī)療領(lǐng)域,比如醫(yī)療信息抽取。基于這些融入了醫(yī)療行業(yè)知識的預(yù)訓(xùn)練模型,華為云自研了CHIEF醫(yī)療信息抽取框架?;谠摽蚣?,華為云從相關(guān)醫(yī)療文獻(xiàn)里面,構(gòu)建了一個醫(yī)學(xué)領(lǐng)域知識圖譜,即從跟新冠肺炎相關(guān)文獻(xiàn)中構(gòu)建了一個包含新冠肺炎相關(guān)的病毒、蛋白、藥物的知識圖譜。

華為云知識計算解決方案從解決企業(yè)痛點、提升企業(yè)效率、提供知識化服務(wù)的角度全面賦能企業(yè),讓各行業(yè)的企業(yè)通過應(yīng)用知識,釋放知識化帶來的紅利,全面提升企業(yè)在智能化時代的競爭力。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-07-22
從知識獲取到應(yīng)用,華為云知識計算三大關(guān)鍵技術(shù)揭秘
AI 行業(yè)落地一直是業(yè)界的一個難題,華為云在探索AI落地之道的過程中發(fā)現(xiàn),各個行業(yè)都有各種形態(tài)的知識,這些知識存在于不同的媒介,比如各...

長按掃碼 閱讀全文