百分點(diǎn)科技榮獲“2021 CCKS知識(shí)圖譜問(wèn)答大賽”季軍

百分點(diǎn)科技榮獲“2021 CCKS知識(shí)圖譜問(wèn)答大賽”季軍

CCKS知識(shí)圖譜問(wèn)答大賽作為中文知識(shí)圖譜領(lǐng)域的最高比賽,在國(guó)內(nèi)知識(shí)圖譜問(wèn)答技術(shù)等相關(guān)研究中有著重要地位,該項(xiàng)賽事的評(píng)測(cè)也成為全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)上最受關(guān)注環(huán)節(jié)之一。

12月25日-26日,第十五屆全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS 2021)正式召開(kāi),會(huì)上發(fā)布了“2021 CCKS知識(shí)圖譜問(wèn)答大賽”最終結(jié)果,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室在“CCKS 2021:生活服務(wù)知識(shí)圖譜問(wèn)答評(píng)測(cè)”任務(wù)中榮獲季軍和技術(shù)創(chuàng)新獎(jiǎng)兩項(xiàng)榮譽(yù)。

百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室

榮獲大賽季軍及技術(shù)創(chuàng)新獎(jiǎng)

CCKS由中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)主辦,是國(guó)內(nèi)知識(shí)圖譜和計(jì)算語(yǔ)義領(lǐng)域的核心學(xué)術(shù)盛會(huì),聚集了知識(shí)表示、自然語(yǔ)言理解、知識(shí)獲取、智能問(wèn)答等相關(guān)技術(shù)領(lǐng)域的和研究人員的學(xué)者和研究人員。

本次大會(huì)以“知識(shí)圖譜賦能新基建”為主題,致力于為研究者們提供一個(gè)測(cè)試技術(shù)、算法、及系統(tǒng)的平臺(tái),共同探討大數(shù)據(jù)環(huán)境下語(yǔ)言理解、知識(shí)獲取、知識(shí)融合、知識(shí)推理等方面的關(guān)鍵技術(shù),以及在新基建背景下的各種智能應(yīng)用。

2021 CCKS知識(shí)圖譜問(wèn)答大賽于2021年3月啟動(dòng),吸引了2300多支參賽隊(duì)伍,其中,在“CCKS 2021:生活服務(wù)知識(shí)圖譜問(wèn)答評(píng)測(cè)”任務(wù)中,有430支隊(duì)伍、460人參賽,該任務(wù)是自然語(yǔ)言處理領(lǐng)域兼具前沿性和綜合性的任務(wù),開(kāi)發(fā)難度較大。

經(jīng)過(guò)激烈的競(jìng)爭(zhēng),最終進(jìn)入排名的僅16支隊(duì)伍,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室“系統(tǒng)之神與我同在”團(tuán)隊(duì)提交的技術(shù)方案榮獲季軍,以明顯的優(yōu)勢(shì)進(jìn)入第一梯隊(duì),與第二梯隊(duì)拉開(kāi)較大的差距。

百分點(diǎn)科技榮獲“2021 CCKS知識(shí)圖譜問(wèn)答大賽”季軍

知識(shí)圖譜作為承載底層海量知識(shí)并支持上層智能應(yīng)用的重要載體,在智能時(shí)代中扮演了極其重要的角色,但由于知識(shí)圖譜高度結(jié)構(gòu)化的特點(diǎn),常常需要構(gòu)建結(jié)構(gòu)化查詢語(yǔ)句(SPARQL等)來(lái)查找相關(guān)知識(shí),這為普通用戶使用知識(shí)圖譜造成了不便,因此在知識(shí)圖譜上進(jìn)行自然語(yǔ)言問(wèn)答(KBQA)近年來(lái)也成為了前者的熱門(mén)應(yīng)用之一。

本次評(píng)測(cè)任務(wù)是希望參賽者們可以提出創(chuàng)新性的KBQA系統(tǒng),同時(shí)處理“專而深”的特定領(lǐng)域和“廣而淺”的開(kāi)放領(lǐng)域知識(shí)圖譜,對(duì)用戶提出的復(fù)雜多樣的自然語(yǔ)言問(wèn)題給出準(zhǔn)確答案。此外,更希望此次評(píng)測(cè)可以為KBQA的下一步研究和落地提供一些理論及實(shí)踐層面的啟發(fā)。

百分點(diǎn)科技榮獲“2021 CCKS知識(shí)圖譜問(wèn)答大賽”季軍

傳統(tǒng)問(wèn)題類型

賽題任務(wù)的問(wèn)題分為傳統(tǒng)問(wèn)題類型和特殊問(wèn)題類型,特殊問(wèn)題類型添加了filter、order等函數(shù)和http://www.w3.org/2001/XMLSchema#float等RDF標(biāo)準(zhǔn)類型后綴的美團(tuán)生活服務(wù)類問(wèn)題。

經(jīng)典問(wèn)題

問(wèn)題:

武漢大學(xué)出了哪些科學(xué)家

查詢語(yǔ)句:

select ?x where {?x<職業(yè)><科學(xué)家_(從事科學(xué)研究的人群)>.?x<畢業(yè)院校><武漢大學(xué)>.}

答案:

"<郭傳杰> <張貽明> <劉西堯> <石正麗> <王小村>"

問(wèn)題:

凱文·杜蘭特得過(guò)哪些獎(jiǎng)?

查詢語(yǔ)句:

select ?x where { <凱文·杜蘭特> <主要獎(jiǎng)項(xiàng)> ?x . }

答案:

"7次全明星(2010-2016)” “5次NBA最佳陣容一陣(2010-2014)” “NBA得分王(2010-2012;2014)” “NBA全明星賽MVP(2012)” "NBA常規(guī)賽MVP(2014)"

問(wèn)題:

獲得性免疫缺陷綜合征涉及哪些癥狀?

查詢語(yǔ)句:

select ?x where {<獲得性免疫缺陷綜合征><涉及癥狀>?x.}

答案:

"<淋巴結(jié)腫大><脾腫大> <心力衰竭> <腎源性水腫> <抑郁> <心源性呼吸困難> <低蛋白血癥> <不明原因發(fā)熱> <免疫缺陷> <高凝狀態(tài)> <右下腹痛伴嘔吐> "

問(wèn)題:

詹妮弗·安妮斯頓出演了一部1994年上映的美國(guó)情景劇,這部美劇共有多少集?

查詢語(yǔ)句:

select ?y where {?x<主演><詹妮弗·安妮斯頓>.?x<上映時(shí)間>""1994"".?x<集數(shù)>?y.}

答案:

"236"

本次CCKS評(píng)測(cè)任務(wù)中還添加了排序、過(guò)濾條件、聚合函數(shù)、limit等問(wèn)題,例如:

百分點(diǎn)科技榮獲“2021 CCKS知識(shí)圖譜問(wèn)答大賽”季軍

在競(jìng)賽過(guò)程中,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室總結(jié)了本次評(píng)測(cè)任務(wù)的四大挑戰(zhàn):

知識(shí)圖譜量級(jí)巨大,檢索和召回復(fù)雜度高;

無(wú)效實(shí)體數(shù)量極多, 定位實(shí)體的難度較大;

賽題涉及的子任務(wù)多,且周期長(zhǎng),容易造成誤差傳播,且難以定位誤差;

自然語(yǔ)言問(wèn)法變化多,復(fù)雜程度高,機(jī)器難以理解中文的博大精深。

百分點(diǎn)科技榮獲“2021 CCKS知識(shí)圖譜問(wèn)答大賽”季軍

對(duì)此,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室創(chuàng)造性地提出了信息檢索與語(yǔ)義解析結(jié)合的技術(shù)方案,通過(guò)實(shí)體鏈接、路徑生成、路徑排序等方式進(jìn)行信息檢索和語(yǔ)義解析,形成集成互補(bǔ),對(duì)比信息檢索和語(yǔ)義解析的答案路徑分?jǐn)?shù),選取分?jǐn)?shù)更高的路徑,并結(jié)合NL2SQL算法,將知識(shí)圖譜與預(yù)訓(xùn)練模型融合,通過(guò)邏輯推理進(jìn)行復(fù)雜問(wèn)題查詢,讓問(wèn)答查詢更接近于人的解析能力,更接近強(qiáng)人工智能。

業(yè)務(wù)賦能

實(shí)現(xiàn)復(fù)雜場(chǎng)景問(wèn)題查詢

本次評(píng)測(cè)得分及獲獎(jiǎng)證明該技術(shù)方案性能優(yōu)異,執(zhí)行效率高,具有良好的可擴(kuò)展性,適用于眾多不同業(yè)務(wù)場(chǎng)景的知識(shí)圖譜系統(tǒng)中,能夠?qū)崿F(xiàn)多跳和夾式等包含多種語(yǔ)法現(xiàn)象的復(fù)雜問(wèn)題的查詢。

百分點(diǎn)科技榮獲“2021 CCKS知識(shí)圖譜問(wèn)答大賽”季軍

例如,在“運(yùn)動(dòng)員李娜的丈夫的主要獎(jiǎng)項(xiàng)有哪些”問(wèn)題查詢中,首先進(jìn)行語(yǔ)義解析生成Sparql語(yǔ)句。

第一步:利用句法解析技術(shù),我們將其中與“修飾”關(guān)系相關(guān)的字詞取出,得到“運(yùn)動(dòng)員-李娜&李娜-丈夫&丈夫-獎(jiǎng)項(xiàng)&主要-獎(jiǎng)。

第二步:利用百分點(diǎn)科技自研的基于知識(shí)圖譜的知識(shí)預(yù)訓(xùn)練生成模型對(duì)問(wèn)句進(jìn)行語(yǔ)義解析,按照從序列到樹(shù)的形式,先生成問(wèn)句的意圖,再生成意圖的中間路徑,然后生成問(wèn)句中實(shí)體的約束條件,最終合并得到解析后的Sparql語(yǔ)。

但由于直接生成的Sparql可能與KG中存在的實(shí)體關(guān)系有差異,例如“李娜”的“丈夫”是用“配偶”存儲(chǔ)的,故不能直接查詢到答案。因此,百分點(diǎn)科技從Sparql中的實(shí)體出發(fā)(若不存在該實(shí)體,則利用信息檢索中的實(shí)體鏈接模塊),生成候選路徑,以Sparql為參考,彌補(bǔ)差異。

知識(shí)圖譜、NLP

數(shù)據(jù)智能技術(shù)應(yīng)用實(shí)踐

本次評(píng)測(cè)任務(wù)屬于中文知識(shí)圖譜自然語(yǔ)言問(wèn)答任務(wù),是百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室的重點(diǎn)研究方向。

早在2018年,百分點(diǎn)科技就成立了認(rèn)知智能實(shí)驗(yàn)室,并將自然語(yǔ)言處理技術(shù)(NLP)與知識(shí)圖譜技術(shù)相結(jié)合,將非結(jié)構(gòu)化數(shù)據(jù)集成到知識(shí)圖譜產(chǎn)品系統(tǒng)中,通過(guò)語(yǔ)音識(shí)別、機(jī)器視覺(jué)和自然語(yǔ)言處理技術(shù)(NLP)從多模態(tài)數(shù)據(jù)中提取語(yǔ)義標(biāo)簽,并融合知識(shí)圖譜技術(shù)將其轉(zhuǎn)化為知識(shí),基于在知識(shí)理解、知識(shí)問(wèn)答和知識(shí)挖掘方面的優(yōu)勢(shì),幫助客戶進(jìn)行科學(xué)、精準(zhǔn)的決策。

實(shí)踐中,百分點(diǎn)科技不斷實(shí)現(xiàn)創(chuàng)新突破,尤其是對(duì)認(rèn)知層和決策層的智能技術(shù)和產(chǎn)品的投入,依托自然語(yǔ)言處理等技術(shù),為客戶提供最前沿、最全面的技術(shù)產(chǎn)品支撐。

目前,百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室已經(jīng)打造了業(yè)界領(lǐng)先的AI認(rèn)知引擎,推出了智能問(wèn)答機(jī)器人、智能翻譯系統(tǒng)和智能審校系統(tǒng)等認(rèn)知智能產(chǎn)品。

未來(lái),百分點(diǎn)科技將繼續(xù)深耕數(shù)據(jù)智能領(lǐng)域,充分發(fā)揮大數(shù)據(jù)全棧技術(shù)和NLP、知識(shí)圖譜、智能交互等認(rèn)知智能技術(shù)的優(yōu)勢(shì),服務(wù)更多政府和企業(yè)進(jìn)行智能化轉(zhuǎn)型,助推數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )