国产1024在线永久免费观看,日韩三级在线网站

導(dǎo)讀

Topbase 是由 TEG－AI 平臺部構(gòu)建并維護(hù)的一個專注于通用領(lǐng)域知識圖譜，其涉及 226 種概念類型，共計(jì) 1 億多實(shí)體，三元組數(shù)量達(dá) 22 億。在技術(shù)上，Topbase 支持圖譜的自動構(gòu)建和數(shù)據(jù)的及時更新入庫。此外，Topbase 還連續(xù)兩次獲得過知識圖譜領(lǐng)域頂級賽事 KBP 的大獎。

目前，Topbase 主要應(yīng)用在微信搜一搜，信息流推薦以及智能問答產(chǎn)品。本文主要梳理 Topbase 構(gòu)建過程中的技術(shù)經(jīng)驗(yàn)，從0到1地介紹了構(gòu)建過程中的重難點(diǎn)問題以及相應(yīng)的解決方案，希望對圖譜建設(shè)者有一定的借鑒意義。

一、簡介

知識圖譜（ Knowledge Graph）以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系，便于計(jì)算機(jī)更好的管理、計(jì)算和理解互聯(lián)網(wǎng)海量信息。通常結(jié)構(gòu)化的知識是以圖形式進(jìn)行表示，圖的節(jié)點(diǎn)表示語義符號（實(shí)體，概念），圖的邊表示符號之間的語義關(guān)系（如圖 1 所示），此外每個實(shí)體還有一些非實(shí)體級別的邊（通常稱之為屬性），如：人物的出生日期，主要成就等。

圖1 知識圖譜的示列

TEG－AI 平臺部的 Topbase 是專注于通用領(lǐng)域知識。數(shù)據(jù)層面，TopBase 覆蓋 51 個領(lǐng)域的知識，涉及 226 種概念類型，共計(jì) 1 億多個實(shí)體，三元組數(shù)量達(dá) 22 億多。技術(shù)層面，Topbase 已完成圖譜自動構(gòu)建和更新的整套流程，支持重點(diǎn)網(wǎng)站的監(jiān)控，數(shù)據(jù)的及時更新入庫，同時具備非結(jié)構(gòu)化數(shù)據(jù)的抽取能力。此外，Topbase 還連續(xù)兩次獲得過知識圖譜領(lǐng)域頂級賽事 KBP 的大獎，分別是 2017 年 KBP 實(shí)體鏈接的雙項(xiàng)冠軍，以及 2019 年 KBP 大賽第二名。在應(yīng)用層面，Topbase 主要服務(wù)于微信搜一搜，信息流推薦以及智能問答產(chǎn)品。本文主要梳理 Topbase 構(gòu)建過程中的重要技術(shù)點(diǎn)，介紹如何從 0 到 1 構(gòu)建一個知識圖譜，內(nèi)容較長，建議先收藏。

二、知識圖譜技術(shù)架構(gòu)

TopBase 的技術(shù)框架如圖 2 所示，主要包括知識圖譜體系構(gòu)建，數(shù)據(jù)生產(chǎn)流程，運(yùn)維監(jiān)控系統(tǒng)以及存儲查詢系統(tǒng)。其中知識圖譜體系是知識圖譜的骨架，決定了我們采用什么樣的方式來組織和表達(dá)知識，數(shù)據(jù)生產(chǎn)流程是知識圖譜構(gòu)建的核心內(nèi)容，主要包括下載平臺，抽取平臺，知識規(guī)整模塊，知識融合模塊，知識推理模塊，實(shí)體重要度計(jì)算模塊等。Topbase 應(yīng)用層涉及知識問答（基于 topbase 的 KB－QA 準(zhǔn)確率超 90％），實(shí)體鏈接（2017 圖譜頂級賽事 KBP 雙料冠軍），相關(guān)實(shí)體推薦等。

圖2 知識圖譜Topbase的技術(shù)框架

1．下載平臺－知識更新：下載平臺是知識圖譜獲取源數(shù)據(jù)平臺，其主要任務(wù)包括新實(shí)體的發(fā)現(xiàn)和新實(shí)體信息的下載。

2．抽取平臺－知識抽取：下載平臺只負(fù)責(zé)爬取到網(wǎng)頁的源代碼內(nèi)容，抽取平臺需要從這些源碼內(nèi)容中生成結(jié)構(gòu)化的知識，供后續(xù)流程進(jìn)一步處理。

3．知識規(guī)整：通過抽取平臺以及合作伙伴提供的數(shù)據(jù)我們可以得到大量的多源異構(gòu)數(shù)據(jù)。為了方便對多源數(shù)據(jù)進(jìn)行融合，知識規(guī)整環(huán)節(jié)需要對數(shù)據(jù)進(jìn)行規(guī)整處理，將各路數(shù)據(jù)映射到我們的知識體系中。

4．知識融合：知識融合是對不同來源，不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行融合，其主要包括實(shí)體對齊和屬性融合。

5．知識推理：由于處理數(shù)據(jù)的不完備性，上述流程構(gòu)建的知識圖譜會存在知識缺失現(xiàn)象（實(shí)體缺失，屬性缺失）。知識推理目的是利用已有的知識圖譜數(shù)據(jù)去推理缺失的知識，從而將這些知識補(bǔ)全。此外，由于已獲取的數(shù)據(jù)中可能存在噪聲，所以知識推理還可以用于已有知識的噪聲檢測，凈化圖譜數(shù)據(jù)。

6．實(shí)體知名度計(jì)算：最后，我們需要對每一個實(shí)體計(jì)算一個重要性分?jǐn)?shù)，這樣有助于更好的使用圖譜數(shù)據(jù)。比如：名字叫李娜的人物有網(wǎng)球運(yùn)動員，歌手，作家等，如果用戶想通過圖譜查詢“李娜是誰”那么圖譜應(yīng)該返回最知名的李娜（網(wǎng)球運(yùn)動員）。

三、知識體系構(gòu)建

知識體系的構(gòu)建是指采用什么樣的方式來組織和表達(dá)知識，核心是構(gòu)建一個本體（或 schema）對目標(biāo)知識進(jìn)行描述。在這個本體中需要定義：1）知識的類別體系（如：圖 1 中的人物類，娛樂人物，歌手等）；2）各類別體系下實(shí)體間所具有的關(guān)系和實(shí)體自身所具有的屬性；3）不同關(guān)系或者屬性的定義域，值域等約束信息（如：出生日期的屬性值是 Date 類型，身高屬性值應(yīng)該是 Float 類型，簡介應(yīng)該是 String 類型等）。我們構(gòu)建 Topbase 知識體系主要是以人工構(gòu)建和自動挖掘的方式相結(jié)合，同時我們還大量借鑒現(xiàn)有的第三方知識體系或與之相關(guān)的資源，如：Schema．org、Dbpedia、大詞林、百科（搜狗）等。知識體系構(gòu)建的具體做法：

1．首先是定義概念類別體系：

概念類別體系如圖 1 的概念層所示，我們將知識圖譜要表達(dá)的知識按照層級結(jié)構(gòu)的概念進(jìn)行組織。在構(gòu)建概念類別體系時，必須保證上層類別所表示的概念完全包含下層類別表示的概念，如娛樂人物是人物類的下層類別，那么所有的娛樂人物都是人物。在設(shè)計(jì)概念類別體系時，我們主要是參考 schema．org、DBpedia 等已有知識資源人工確定頂層的概念體系。同時，我們要保證概念類別體系的魯棒性，便于維護(hù)和擴(kuò)展，適應(yīng)新的需求。除了人工精心維護(hù)設(shè)計(jì)的頂層概念類別體系，我們還設(shè)計(jì)了一套上下位關(guān)系挖掘系統(tǒng)，用于自動化構(gòu)建大量的細(xì)粒度概念（或稱之為上位詞），如：《不能說的秘密》還具有細(xì)粒度的概念：“青春校園愛情電影”，“穿越電影”。

2．其次是定義關(guān)系和屬性：

定義了概念類別體系之后我們還需要為每一個類別定義關(guān)系和屬性。關(guān)系用于描述不同實(shí)體間的聯(lián)系，如：夫妻關(guān)系（連接兩個人物實(shí)體），作品關(guān)系（連接人物和作品實(shí)體）等；屬性用于描述實(shí)體的內(nèi)在特征，如人物類實(shí)體的出生日期，職業(yè)等。關(guān)系和屬性的定義需要受概念類別體系的約束，下層需要繼承上層的關(guān)系屬性，例如所有歌手類實(shí)體應(yīng)該都具有人物類的關(guān)系和屬性。我們采用半自動的方式生成每個概念類別體系下的關(guān)系屬性。我們通過獲取百科 Infobox 信息，然后將實(shí)體分類到概念類別體系下，再針對各類別下的實(shí)體關(guān)系屬性進(jìn)行統(tǒng)計(jì)分析并人工審核之后確定該概念類別的關(guān)系屬性。關(guān)系屬性的定義也是一個不斷完善積累的過程。

3．定義約束：

定義關(guān)系屬性的約束信息可以保證數(shù)據(jù)的一致性，避免出現(xiàn)異常值，比如：年齡必須是 Int 類型且唯一（單值），演員作品的值是 String 類型且是多值。

四、下載平臺－知識更新

知識更新主要包括兩方面內(nèi)容，一個是新出現(xiàn)的熱門實(shí)體，需要被及時發(fā)現(xiàn)和下載其信息，另一個是關(guān)系屬性變化的情況需要對其值進(jìn)行替換或者補(bǔ)充，如明星的婚姻戀愛關(guān)系等。

知識更新的具體流程如下圖所示：

圖3 Topbase知識更新流程圖

1．針對熱門實(shí)體信息的更新策略主要有：

從各大站點(diǎn)主頁更新，定時遍歷重點(diǎn)網(wǎng)站種子頁，采用廣搜的方式層層下載實(shí)體頁面信息；

從新聞?wù)Z料中更新，基于新聞?wù)奈谋局型诰蛐聦?shí)體，然后拼接實(shí)體名稱生成百科 URL 下載；

從搜索 query log 中更新，通過挖掘 querylog 中的實(shí)體，然后拼接實(shí)體生成百科 URL 下載?；?querylog 的實(shí)體挖掘算法主要是基于實(shí)體模板庫和我們的 QQSEG－NER 工具；

從知識圖譜已有數(shù)據(jù)中更新，知識圖譜已有的重要度高的實(shí)體定期重新下載；

從人工運(yùn)營中更新，將人工（業(yè)務(wù)）獲得的 URL 送入下載平臺獲取實(shí)體信息；

從相關(guān)實(shí)體中更新，如果某個熱門實(shí)體信息變更，則其相關(guān)實(shí)體信息也有可能變更，所以需要獲得熱門實(shí)體的相關(guān)實(shí)體，進(jìn)行相應(yīng)更新。

表 1 最近 7 日下載數(shù)據(jù)統(tǒng)計(jì)情況

2．針對其他關(guān)系屬性易變的情況，我們針對某些重要關(guān)系屬性進(jìn)行專項(xiàng)更新。如明星等知名人物的婚姻感情關(guān)系我們主要通過事件挖掘的方式及時更新，如：離婚事件會觸發(fā)已有關(guān)系“妻子”“丈夫”變化為“前妻”“前夫”，戀愛事件會觸發(fā)“男友”“女友”關(guān)系等。此外，基于非結(jié)構(gòu)化抽取平臺獲得的三元組信息也有助于更新實(shí)體的關(guān)系屬性。

五、抽取平臺－知識抽取

Topbase 的抽取平臺主要包括結(jié)構(gòu)化抽取，非結(jié)構(gòu)化抽取和專項(xiàng)抽取。其中結(jié)構(gòu)化抽取主要負(fù)責(zé)抽取網(wǎng)頁編輯者整理好的規(guī)則化知識，其準(zhǔn)確率高，可以直接入庫。由于結(jié)構(gòu)化知識的局限性，大量的知識信息蘊(yùn)含在純文本內(nèi)容中，因此非結(jié)構(gòu)化抽取主要是從純文本數(shù)據(jù)中挖掘知識彌補(bǔ)結(jié)構(gòu)化抽取信息的不足。此外，某些重要的知識信息需要額外的設(shè)計(jì)專項(xiàng)策略進(jìn)行抽取，比如：事件信息，上位詞信息（概念），描述信息，別名信息等。這些重要的知識抽取我們統(tǒng)稱專項(xiàng)抽取，針對不同專項(xiàng)的特點(diǎn)設(shè)計(jì)不同的抽取模塊。

1．結(jié)構(gòu)化抽取平臺

許多網(wǎng)站提供了大量的結(jié)構(gòu)化數(shù)據(jù)，如（圖 4 左）所示的百科 Infobox 信息。這種結(jié)構(gòu)化知識很容易轉(zhuǎn)化為三元組，如：“＜姚明，妻子，葉莉＞”。針對結(jié)構(gòu)化數(shù)據(jù)的抽取，我們設(shè)計(jì)了基于 Xpath 解析的抽取平臺，如（圖 4 右）所示，我們只需要定義好抽取網(wǎng)頁的種子頁面如：baike．com，然后從網(wǎng)頁源碼中拷貝 Infobox 中屬性的 xpath 路徑即可實(shí)現(xiàn)結(jié)構(gòu)化知識的自動抽取，入庫。通過結(jié)構(gòu)化抽取平臺生成的數(shù)據(jù)準(zhǔn)確率高，因此無需人工參與審核即可直接入庫，它是知識圖譜的重要數(shù)據(jù)來源。

圖4 Topbase結(jié)構(gòu)化抽取平臺的xpath配置界面

2．非結(jié)構(gòu)化抽取平臺

由于大量的知識是蘊(yùn)含在純文本中，為了彌補(bǔ)結(jié)構(gòu)化抽取信息的不足，我們設(shè)計(jì)了非結(jié)構(gòu)化抽取平臺。非結(jié)構(gòu)化抽取流程如圖 5 所示：

圖5 Topbase非結(jié)構(gòu)化抽取平臺的技術(shù)框架

1234下一頁>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）