第四范式、Intel研究成果入選國際頂會VLDB 全面優(yōu)化超高維在線預(yù)估系統(tǒng)

近日,第四范式與英特爾聯(lián)合實驗室以及新加坡國立大學(xué)的最新聯(lián)合研究成果——基于英特爾® 傲騰™持久內(nèi)存的特征工程內(nèi)存數(shù)據(jù)庫FEDB(Feature Engineering Database),被國際頂級數(shù)據(jù)庫學(xué)術(shù)會議VLDB(Very Large Data Base)作為常規(guī)研究論文錄取。VLDB與SIGMOD并稱為數(shù)據(jù)庫業(yè)界的兩大最頂級學(xué)術(shù)會議,收錄研究機構(gòu)以及科技企業(yè)在數(shù)據(jù)庫領(lǐng)域最前沿、最頂級的研究成果。此次,第四范式與Intel合作錄取的論文以解決在線預(yù)估系統(tǒng)的業(yè)務(wù)需求和痛點為目的,針對如何設(shè)計底層數(shù)據(jù)庫組件來高效支撐萬億維稀疏特征在線預(yù)估系統(tǒng),以及如何基于英特爾® 傲騰™持久內(nèi)存進一步解決業(yè)務(wù)和系統(tǒng)設(shè)計的痛點等兩方面進行創(chuàng)新性設(shè)計和全面優(yōu)化。

如今,越來越多的企業(yè)意識到了AI在企業(yè)經(jīng)營、決策中的重要作用,AI迎來了落地應(yīng)用爆發(fā)期。作為AI落地的關(guān)鍵組件,超高維在線預(yù)估系統(tǒng)基于實時提取的超高維特征和預(yù)先訓(xùn)練的模型對業(yè)務(wù)數(shù)據(jù)進行實時評估,因而被廣泛應(yīng)用在欺詐交易識別、個性化推薦等在線實時推理業(yè)務(wù)場景中。

為了支撐高性能的實時特征存取需求,業(yè)界誕生了諸多實時內(nèi)存數(shù)據(jù)庫。然而,伴隨著業(yè)務(wù)的持續(xù)擴張和數(shù)據(jù)量的指數(shù)級增長,實時內(nèi)存數(shù)據(jù)庫所存在的潛在弊端與風(fēng)險使其難以高效、低成本的滿足不斷增長的業(yè)務(wù)硬實時需求:

-高性能特征存取對計算資源消耗巨大:為了保障線上服務(wù)的性能,特征工程內(nèi)存數(shù)據(jù)庫對內(nèi)存的容量要求極高,企業(yè)通常需要配備20-30臺機器以滿足高性能計算需求所需的內(nèi)存容量,總體擁有成本(TCO)居高不下。

-服務(wù)中斷恢復(fù)所需周期長,嚴(yán)重影響企業(yè)線上服務(wù)質(zhì)量:企業(yè)線上服務(wù)對服務(wù)質(zhì)量的要求極高,然而通常情況下服務(wù)中斷(軟硬件錯誤宕機、例行維護等)往往需要幾個小時的恢復(fù)時間,業(yè)務(wù)長時間掉線嚴(yán)重影響線上服務(wù)質(zhì)量。

-長尾延遲使用基于內(nèi)存的特征工程數(shù)據(jù)庫保障了線上服務(wù)的高性能,但是數(shù)據(jù)備份依然會落盤到性能較差的外存儲設(shè)備上,導(dǎo)致某些場景出現(xiàn)長尾延遲,嚴(yán)重影響服務(wù)質(zhì)量。

為解決以上問題,第四范式自主研發(fā)了實時特征工程內(nèi)存數(shù)據(jù)庫FEDB。作為面向AI硬實時場景的分布式特征數(shù)據(jù)庫,F(xiàn)EDB所具備的高效計算、讀寫分離、高并發(fā)、高性能查詢等特性,使得特征工程的效率和性能達到最大化。

在充分發(fā)揮FEDB價值的基礎(chǔ)上,第四范式引入英特爾® 傲騰™持久內(nèi)存技術(shù),以及創(chuàng)新性的持久化數(shù)據(jù)結(jié)構(gòu),全面支撐AI硬實時、低成本、高計算性能等需求。雙方基于英特爾® 傲騰™持久內(nèi)存,使用App Direct Mode,開發(fā)優(yōu)化持久化數(shù)據(jù)結(jié)構(gòu),完全摒棄了FEDB原有的基于外存儲設(shè)備的數(shù)據(jù)持久化架構(gòu),不僅充分利用了持久內(nèi)存大容量、持久性的特性,而且將持久化操作帶來的性能損耗降至最小。

該工作主要的創(chuàng)新性優(yōu)化技術(shù)包括“持久化智能指針”以及利用原子操作“持久化比較并交換”(Atomic Persistent Compare-And-Swap”)的解決方案。一方面,持久化智能指針巧妙地利用了64位操作系統(tǒng)中64位寬指針不被使用的低4位來標(biāo)記目標(biāo)地址的數(shù)據(jù)是否已持久化;另一方面,針對“比較并交換操作”(CAS),傳統(tǒng)指令缺少持久化語義,因而無法在持久內(nèi)存中直接作為帶有持久化特性的原子操作來使用的難點,雙方引入了新的“讀前持久化”(flush-before-read)概念,利用持久化智能指針,保證“持久化比較并交換” (Persistent CAS)正確性的同時,最大化減少持久化帶來的性能損耗。

此項工作的研究成果表明,基于英特爾® 傲騰™持久內(nèi)存的FEDB可有效滿足企業(yè)超高維稀疏特征在線預(yù)估場景的需求,在保證線上推理服務(wù)超高性能的同時,大幅降低了企業(yè)AI整體投入成本,提升了線上服務(wù)的質(zhì)量,進一步掃清了企業(yè)AI規(guī)?;瘧?yīng)用的障礙。

英特爾® 傲騰™持久內(nèi)存的加持滿足特征工程數(shù)據(jù)庫對大內(nèi)存的需求。下圖顯示了在論文實驗中使用的機器配置,在10TB數(shù)據(jù)的業(yè)務(wù)場景中,基于英特爾® 傲騰™持久內(nèi)存的FEDB的硬件成本僅為基于純內(nèi)存版本的41.6%。

第四范式、Intel研究成果入選國際頂會VLDB  全面優(yōu)化超高維在線預(yù)估系統(tǒng)

硬件成本比較(10TB業(yè)務(wù)數(shù)據(jù))

在服務(wù)中斷情況下實現(xiàn)數(shù)據(jù)快速恢復(fù),服務(wù)恢復(fù)時間減少99.7%,全面降低對線上服務(wù)質(zhì)量的影響。如在論文中描述的結(jié)果(見下圖,PA-FEDB為基于持久內(nèi)存優(yōu)化的FEDB,D-FEDB為內(nèi)存版本的FEDB),在實際業(yè)務(wù)場景中,其數(shù)據(jù)恢復(fù)時間從原來的六個小時縮短至一分鐘左右。

第四范式、Intel研究成果入選國際頂會VLDB  全面優(yōu)化超高維在線預(yù)估系統(tǒng)

數(shù)據(jù)恢復(fù)時間比較

持久內(nèi)存(PA-FEDB)vs. 純內(nèi)存(D-FEDB)

?基于英特爾® 傲騰™持久內(nèi)存進行持久化數(shù)據(jù)結(jié)構(gòu)設(shè)計的FEDB舍棄了原有純內(nèi)存方案以及基于外存儲設(shè)備的備份機制,實現(xiàn)了長尾延遲(TP-9999)接近20%的改善(見下圖,PA-FEDB為基于持久內(nèi)存優(yōu)化的FEDB,D-FEDB為內(nèi)存版本的FEDB )。

第四范式、Intel研究成果入選國際頂會VLDB  全面優(yōu)化超高維在線預(yù)估系統(tǒng)

長尾延遲TP-9999比較

持久內(nèi)存(PA-FEDB)vs. 純內(nèi)存(D-FEDB)

未來,第四范式與英特爾聯(lián)合實驗室還將在軟硬一體技術(shù)、面向AI的高性能計算等方面展開深入合作,結(jié)合英特爾領(lǐng)先的軟硬件產(chǎn)品以及第四范式在AI領(lǐng)域的深厚積累、研發(fā)優(yōu)勢,推動AI技術(shù)的創(chuàng)新和落地,加速企業(yè)規(guī)?;疉I應(yīng)用進程,共同引領(lǐng)AI產(chǎn)業(yè)化發(fā)展。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )