虎博科技智能搜索:以NLP與行業(yè)知識圖譜構(gòu)建數(shù)據(jù)處理管道,打破數(shù)據(jù)孤島

本文轉(zhuǎn)載自2020年【AI中國】機器之心年度案例解讀——虎博科技賦能方正證券智能搜索案例。

虎博科技智能搜索引擎基于虎博科技MasterMind核心系統(tǒng)所打造,可利用自然語言處理、知識圖譜等技術(shù)為券商等金融客戶搭建智能數(shù)據(jù)中臺,對接和管理海量文本數(shù)據(jù)。對于數(shù)據(jù)孤島問題,系統(tǒng)可基于多數(shù)據(jù)源智能適配、搜索意圖推薦、搜索功能快速構(gòu)建等優(yōu)勢功能協(xié)助企業(yè)構(gòu)建高效數(shù)據(jù)管道,挖掘數(shù)據(jù)價值及提高數(shù)據(jù)利用率。

移動證券服務數(shù)據(jù)孤島亟待智能技術(shù)優(yōu)化用戶體驗

對于證券行業(yè)來說,移動應用已成為行業(yè)中不可或缺的服務載體。伴隨移動互聯(lián)網(wǎng)的高速發(fā)展,客戶的交互、開戶、交易、理財購買等行為由傳統(tǒng)的PC端轉(zhuǎn)向移動App。在此趨勢下,券商普遍開始重視并開發(fā)的移動應用,并加大研發(fā)資金投入以優(yōu)化服務效能及應用場景創(chuàng)新。然而,證券APP常有的交易、資訊、投研等各類內(nèi)容服務板塊往往由券商公司內(nèi)不同組織提供,極易出現(xiàn)歷史包袱、系統(tǒng)割裂、數(shù)據(jù)孤島等問題。

以方正證券為例,其移動應用「小方App」經(jīng)過4年的功能迭代和累加,已為客戶提供交易行情、理財、投顧、資訊、消息、智能等數(shù)百項功能服務。然而,其股票信息、投顧信息、研報資訊等數(shù)據(jù)長期沉淀于各個獨立業(yè)務板塊,形成數(shù)據(jù)孤島。用戶在進行投研、產(chǎn)品決策等行為時需要頻繁切換板塊,無法高效順暢地獲取數(shù)據(jù)。由此,機構(gòu)亟需改進優(yōu)化搜索功能,構(gòu)建可提供股票搜索、理財搜索、投顧搜索等綜合性智能搜索服務。

移動證券智能應用案例解析:以虎博科技為小方App搭建智能搜索服務為例

為解決方正證券的數(shù)據(jù)孤島問題,虎博科技通過引入其虎博智能搜索引擎,結(jié)合深度學習、自然語言處理、知識圖譜等智能技術(shù)為小方App構(gòu)建了智能搜索功能。利用搜索框為用戶提供高效信息服務。

在方案設(shè)計流程中,虎博科技針對智能搜索功能這一目標服務功能的業(yè)務流程梳理出:用戶問題、查詢分析、組內(nèi)搜索策略、組間搜索策略、輸出API、展示卡片六個環(huán)節(jié);其中所涉及的數(shù)據(jù)流程則包含:異構(gòu)數(shù)據(jù)轉(zhuǎn)換、離線索引構(gòu)建、組內(nèi)策略構(gòu)建、組間策略構(gòu)建四個環(huán)節(jié)。其中異構(gòu)數(shù)據(jù)轉(zhuǎn)換和離線索引構(gòu)建都屬于離線處理,虎博科技在數(shù)據(jù)處理管道上結(jié)合自身在NLP領(lǐng)域的審核積淀,提供了豐富的處理模型,從而提升搜索效果。

一、 核心設(shè)施 – 虎博智能搜索引擎

虎博智能搜索引擎基于虎博MasterMind核心系統(tǒng)所打造,可利用自然語言處理、知識圖譜等技術(shù)為券商等金融客戶搭建智能數(shù)據(jù)中臺,對接和管理海量文本數(shù)據(jù)。

虎博科技智能搜索:以NLP與行業(yè)知識圖譜構(gòu)建數(shù)據(jù)處理管道,打破數(shù)據(jù)孤島

對于本案例中客戶在高效數(shù)據(jù)處理上的需求,引擎可提供:

1.多數(shù)據(jù)源智能適配 – 包含內(nèi)外部財報、研報、公告、資訊、產(chǎn)品等數(shù)據(jù)在內(nèi),引擎可快速接入多種形式的數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)及文檔、表格、圖片、音頻等非結(jié)構(gòu)化數(shù)據(jù))。

2.搜索意圖推薦 – 引擎可基于豐富的NLP算法在索引構(gòu)建過程中對數(shù)據(jù)進行深度知識挖掘分析,提供更快速的查詢檢索。

3.搜索功能快速構(gòu)建 – 引擎的搜索API模塊允許用戶通過簡單的后臺配置快速構(gòu)建搜索服務功能,并配合NLP算法理解用戶檢索語義和意圖,支持口語化問答交互。此外,搜索服務于可對接口進行限流和鑒權(quán)實現(xiàn)安全性保障。

4.監(jiān)控 – 系統(tǒng)全流程監(jiān)控,幫助用戶快速定位問題。

5.反饋日志 - 用戶反饋日志收集持續(xù)優(yōu)化搜索結(jié)果。

二、結(jié)合NLP與知識圖譜搭建數(shù)據(jù)處理管道,實現(xiàn)智能搜索

為構(gòu)建高效、精準的搜索服務,在數(shù)據(jù)流程中的離線處理部分,虎博科技基于自身在NLP領(lǐng)域的技術(shù)積累,通過意圖識別模型、深度學習語義模型以及行業(yè)知識圖譜和條件推理模型等技術(shù)優(yōu)勢構(gòu)建數(shù)據(jù)處理管道,從而提升搜索效果。

意圖識別模型–用于準確識別用戶搜索意圖,進而反饋更加符合需求的結(jié)果。模型可對query進行分類,識別出SQL類query 和匹配類query。若識別結(jié)果為SQL類query,系統(tǒng)將直接采用文本分類模型進后續(xù)處理;若識別結(jié)果為匹配類query則使用深度排序模型。

深度學習排序模型–用于查詢匹配類query與文檔的相關(guān)性。模型采用對離散特征做Embedding的方法,借鑒了FNN的思想,然后采用Wide&Deep模型同時訓練一個Wide側(cè)的線性模型和一個Deep側(cè)的神經(jīng)網(wǎng)絡(luò),Wide部分提供記憶能力,關(guān)注用戶有過的歷史行為,Deep部分則提供泛化能力,關(guān)注一些沒有歷史行為的Item。

行業(yè)知識圖譜和條件推理模型–用于將自然語言問題提煉為查詢條件在圖譜上推理檢索(NL2SQL)。具體地,采用了一種基于草圖的方法,其中草圖包含一個依賴圖,因此可以通過僅考慮其依賴的先前預測來進行下一個預測。預測列時采用sigmoid函數(shù)來計算每個列出現(xiàn)的概率,并采用列注意力來提高預測能力,并使用序列到序列的進行預測取值,從自然語言中提取查詢條件。

此外,針對小方App所提供的證券信息、理財?shù)葍?nèi)容服務,虎博科技基于大量的證券方面的研報、財報,在通用的語言模型(例如bert、albert)上,采用持續(xù)學習的方法訓練了行業(yè)語言模型,全面的運用于后續(xù)的實體識別、關(guān)系抽取、情感分析模型等。而對于部分英文研究材料,則基于大量的證券雙語平行語料訓練的翻譯系統(tǒng),滿足了翻譯需求,并通過大量的證券語料以及標注,結(jié)合實體識別和關(guān)系抽取輔助,構(gòu)建完善的證券垂直領(lǐng)域知識圖譜,為下游的檢索任務提供支持。

三、應用效果

引入虎博智能搜索引擎后,方正證券旗下小方App信息服務效率至少提升50%。通過將原來各個二級頁面的搜索框,以及不同的功能整合成為首頁搜索框,形成統(tǒng)一的搜索入口,實現(xiàn)「股票」「理財」「投顧」「資訊」「發(fā)現(xiàn)」等全場景信息的一站式服務。

理財產(chǎn)品智能搜索可基于虎博科技針對證券行業(yè)的自然語言理解模型及知識圖譜,對產(chǎn)品進行多屬性智能關(guān)聯(lián),連接用戶和產(chǎn)品,提升產(chǎn)品的轉(zhuǎn)化率;研報資訊精準搜索可對于研報、資訊、公告以及其他非結(jié)構(gòu)化數(shù)據(jù)庫中內(nèi)容提供深度語義搜索,快速提供高價值信息;投顧信息搜索則通過綜合展示平臺,讓用戶能夠方便的聯(lián)系投顧、認知投顧、簽約投顧,促進業(yè)務變現(xiàn),且縮短了用戶查找信息的路徑。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )