用數(shù)據(jù)說話,億級(jí)海量數(shù)據(jù)分析性能瓶頸如何破?

【導(dǎo)語(yǔ)】以指紋為代表的生物特征識(shí)別應(yīng)用正在日趨普遍,隨之而來的則是億級(jí)數(shù)據(jù)量級(jí)的數(shù)據(jù)分析工作。如何讓億級(jí)海量數(shù)據(jù)分析做到又快又準(zhǔn)?海鑫科金試用和對(duì)比了兩套解決方案,欲知結(jié)果如何?請(qǐng)看下文。

數(shù)據(jù)能幫助企業(yè)更高效的生產(chǎn)、輔助企業(yè)做出更科學(xué)的決策……應(yīng)該說,數(shù)據(jù)的重要性已經(jīng)得到全社會(huì)的認(rèn)同。當(dāng)然,數(shù)據(jù)并不是拿來就能用,它必須經(jīng)過清洗、集成、轉(zhuǎn)換、分析、呈現(xiàn)等一系列流程后,才能為每個(gè)企業(yè)所用,這一系列動(dòng)作統(tǒng)稱為數(shù)據(jù)分析過程。

顯而易見,數(shù)據(jù)分析是企業(yè)從數(shù)據(jù)中挖掘價(jià)值的關(guān)鍵步驟。正因?yàn)榇耍?dāng)前,數(shù)據(jù)分析在互聯(lián)網(wǎng)、金融、政府、零售等多個(gè)行業(yè)呈現(xiàn)越來越廣泛的應(yīng)用態(tài)勢(shì)。北京海鑫科金高科技股份有限公司(以下簡(jiǎn)稱“海鑫科金”)就是其中的一個(gè)代表。

海鑫科金成立于1998年,專注于多生物特征識(shí)別(包括指掌紋、人像、DNA、虹膜、聲紋、足跡識(shí)別、筆跡識(shí)別等)、公安信息化綜合應(yīng)用、視頻偵查技術(shù)和大數(shù)據(jù)綜合應(yīng)用這四大領(lǐng)域。目前,其產(chǎn)品在刑偵、安防、司檢法、出入境及金融、酒店、社保、教育、交通、大型活動(dòng)管理、場(chǎng)所監(jiān)控和互聯(lián)網(wǎng)應(yīng)用等社會(huì)領(lǐng)域都獲得了廣泛應(yīng)用。

數(shù)據(jù)量大,還要求更快更精?

海鑫科金,可以說是典型的數(shù)據(jù)密集型企業(yè)。而伴隨近些年數(shù)據(jù)量越來越大,數(shù)據(jù)處理要求越來越高,海鑫科金面臨著巨大的挑戰(zhàn)。

以被普遍應(yīng)用于案件現(xiàn)場(chǎng)指掌紋采集比對(duì)、入所人員捺印指掌紋采集比對(duì)、卡口人員捺印指掌紋采集比對(duì)、重點(diǎn)人員指掌紋比對(duì)等場(chǎng)景的指掌紋識(shí)別技術(shù)為例。

海鑫科金副總經(jīng)理/AI研究院院長(zhǎng)楊春宇在接受采訪時(shí)表示,“指紋解決方案是一個(gè)大型的生物特征識(shí)別與認(rèn)證系統(tǒng),用來為居民身份證、電子護(hù)照和犯罪指紋數(shù)據(jù)庫(kù)鑒定數(shù)以百萬、千萬、乃至億計(jì)的指紋。隨著更多的指紋添加到數(shù)據(jù)庫(kù)中,以及指紋驗(yàn)證需求量的增加,我們必須讓自己的技術(shù)解決方案滿足大數(shù)據(jù)時(shí)代的需求?!?/p>

其實(shí),這樣的變化我們每個(gè)人都有切身體會(huì),如今需要指掌紋識(shí)別的場(chǎng)景多了,頻次高了。一個(gè)最常見的場(chǎng)景就是出國(guó),過海關(guān)。

大數(shù)據(jù)時(shí)代對(duì)指掌紋識(shí)別有什么要求呢?簡(jiǎn)單來說,在數(shù)據(jù)庫(kù)變大、指紋驗(yàn)證量增加的同時(shí),確保性能和精度和之前一致,甚至更高。如果滿足不了效率需求,這套方案的實(shí)用性將大打折扣。試想如果過海關(guān)需要幾分鐘才能識(shí)別一個(gè)人,那一天又能通過多少人?

為滿足用戶的實(shí)際需求,作為國(guó)內(nèi)指掌紋技術(shù)領(lǐng)域翹楚的海鑫科金和英特爾展開了深入的探討。

傲騰,更具性價(jià)比的選擇

為什么選擇英特爾?還得從指紋識(shí)別的技術(shù)特點(diǎn)說起。

指紋識(shí)別比對(duì)技術(shù)解決方案一般包括數(shù)據(jù)獲取、預(yù)處理、特征 提取、比對(duì)、后處理等主要環(huán)節(jié)(參見圖1)。相比其它生物特征識(shí)別技術(shù)(如人臉識(shí)別等),指紋比對(duì)是一種典型的CPU及內(nèi)存密集型算法:指紋系統(tǒng)從現(xiàn)場(chǎng)采集的原始指紋數(shù)據(jù),經(jīng)過預(yù)處理和特征提取之后,會(huì)形成結(jié)構(gòu)化的點(diǎn)集,再將其與后臺(tái)數(shù)據(jù)庫(kù)中百萬量級(jí)的指紋實(shí)例進(jìn)行比對(duì),這時(shí)就會(huì)涉及大量的邏輯判斷分支,這樣一來,解決方案的性能會(huì)嚴(yán)重依賴于內(nèi)存資源的可用性,同時(shí)對(duì)通用計(jì)算內(nèi)核的性能需求也非常高。

對(duì)CPU和內(nèi)存強(qiáng)依賴,綜觀如今的IT市場(chǎng),能同時(shí)滿足這兩點(diǎn)的,恐怕只英特爾一家。

最終,英特爾和海鑫科金技術(shù)團(tuán)隊(duì)選擇了第二代英特爾至強(qiáng)可擴(kuò)展處理器作為目標(biāo)平臺(tái)的核心支撐。與此同時(shí),選擇英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存作為“二級(jí)存儲(chǔ)”來部分地取代傳統(tǒng)內(nèi)存。

特別強(qiáng)調(diào)一下,這是對(duì)比后的結(jié)果。在選型過程中,海鑫科金對(duì)純DRAM和用傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存替代部分DRAM兩種方案進(jìn)行了綜合對(duì)比,基準(zhǔn)測(cè)試結(jié)果表明,采用傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存的方案具有很好的性價(jià)比優(yōu)勢(shì)。

拿數(shù)據(jù)說話

為了更直觀的呈現(xiàn),這里簡(jiǎn)單介紹下測(cè)試環(huán)境。

用于對(duì)比測(cè)試的兩套方案都基于標(biāo)準(zhǔn)雙路服務(wù)器,CPU采用第二代英特爾至強(qiáng)鉑金處理器8280,總規(guī)模為960GB的指紋比對(duì)數(shù)據(jù)庫(kù)被分為96個(gè)單體尺寸為 10GB的切片,每個(gè)切片包含的記錄條數(shù)略高于400萬條,這些數(shù)據(jù)都存放在容量為1TB的英特爾固態(tài)盤DC P3520上。

在這些配置條件相同的前提下,兩套方案的不同之處在于,其中一套采用768G的DDR4內(nèi)存,另一套采用192GB的DDR4內(nèi)存搭配1TB的英特爾傲騰數(shù)據(jù)中 心級(jí)持久內(nèi)存。從成本的角度看,兩者相當(dāng)。

海鑫科金在兩套環(huán)境中運(yùn)行同樣的海鑫HABIS X指紋比對(duì)系統(tǒng),并測(cè)試其記錄查詢性能。結(jié)果表明,采用傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存方案的記錄查詢速度(單位:QPS)比純DRAM方案高出26%(如圖2所示)。

為什么會(huì)有這么大的提升?奧秘在于當(dāng)CPU處于高負(fù)載時(shí),在系統(tǒng)從DRAM(緩存)加載數(shù)據(jù)到CPU進(jìn)行計(jì)算的同時(shí),也執(zhí)行了從傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存加載數(shù)據(jù)到DRAM(緩存)的動(dòng)作,從而提高了系統(tǒng)進(jìn)行數(shù)據(jù)讀取的效率。而且并行處理的批量數(shù)據(jù)越多,基于傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存的方案取得的相對(duì)表現(xiàn)就越好。

通俗的講,CPU和內(nèi)存之間的通信是有瓶頸的,一味增加內(nèi)存也并不能在性能上獲得線性增長(zhǎng)的效果,而256GB內(nèi)存可不只是比128GB的貴一倍。換句話說,成本的增加和性能的增加不成比例。這是傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存的最大優(yōu)勢(shì),以遠(yuǎn)低于內(nèi)存的價(jià)格達(dá)到準(zhǔn)內(nèi)存的性能。

實(shí)際上,雙方技術(shù)團(tuán)隊(duì)還做了另外一組測(cè)算,如果把兩套方案略作調(diào)整,讓兩者的QPS處于相同水平,那么基于傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存的方案總體擁有成本(TCO)比純DRAM方案會(huì)低29%。

更重要的是,這些結(jié)果還都是在尚未對(duì)系統(tǒng)進(jìn)行任何優(yōu)化、也沒有對(duì)軟件進(jìn)行任何更改的前提下取得的。這意味著一方面,海鑫科金不用做任何改動(dòng)就可以將現(xiàn)有解決方案部署到新的至強(qiáng)平臺(tái)上,另一方面,未來性能還有比較大的提升空間。英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存為系統(tǒng)性能的提升給出了一條更為經(jīng)濟(jì)實(shí)惠的路徑。

即錄、即比、即反

目前,基于英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存的海鑫科金云智能多生物識(shí)別系統(tǒng) HABIS X已經(jīng)用于現(xiàn)場(chǎng)測(cè)試,在某直轄市相關(guān)單位的指掌紋系統(tǒng)建設(shè)項(xiàng)目中,新方案各項(xiàng)指標(biāo)均滿足設(shè)計(jì)要求,獲得了用戶的充分肯定。

以現(xiàn)場(chǎng)勘查為例,工作人員往往需要對(duì)案發(fā)現(xiàn)場(chǎng)的指掌紋進(jìn)行特征提取和比對(duì),這是一件極為費(fèi)時(shí)費(fèi)力的工作,環(huán)境通常十分復(fù)雜,指紋的提取經(jīng)常遇到多人、重疊、殘缺等情況,嫌疑人的指掌紋往往混雜在事主家人和親友鄰居的指紋里。采用傳統(tǒng)技術(shù)方案對(duì)現(xiàn)場(chǎng)指紋進(jìn)行提取及比對(duì),由于系統(tǒng)性能的局限,現(xiàn)場(chǎng)人員往往回到單位后才能進(jìn)行電子化信息的錄入以及后續(xù)的比對(duì),這個(gè)繁瑣的流程花費(fèi)的時(shí)間通常會(huì)數(shù)以天計(jì)。

在應(yīng)用了海鑫科金推出的HABIS X方案后,可以做到“即錄(錄入)、即比 (比對(duì))、即反(反饋)”,在現(xiàn)場(chǎng)當(dāng)即給出比對(duì)結(jié)果。這不但提升了信息錄入的規(guī)范性、時(shí)效性和質(zhì)量,而且大幅減輕了基層技術(shù)人員的工作負(fù)擔(dān),提高了現(xiàn)場(chǎng)人員的工作積極性和事業(yè)成就感。

更快、更精準(zhǔn)的識(shí)別,并不是海鑫科金指掌紋識(shí)別系統(tǒng)追求的終點(diǎn)。海鑫科金副總經(jīng)理、公共安全事業(yè)部總經(jīng)理陳俊就表示,接下來他們還將在移動(dòng)端、人工智能,以及云方面發(fā)力。英特爾作為云計(jì)算和人工智能的積極倡導(dǎo)者,也會(huì)繼續(xù)和海鑫科金共同創(chuàng)新,推動(dòng)指掌紋識(shí)別更上一層樓。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-05-11
用數(shù)據(jù)說話,億級(jí)海量數(shù)據(jù)分析性能瓶頸如何破?
相比其它生物特征識(shí)別技術(shù)(如人臉識(shí)別等),指紋比對(duì)是一種典型的CPU及內(nèi)存密集型算法:指紋系統(tǒng)從現(xiàn)場(chǎng)采集的原始指紋數(shù)據(jù),經(jīng)過預(yù)處理和特征提取之后,會(huì)形成結(jié)構(gòu)化的點(diǎn)集,再將其與后臺(tái)數(shù)據(jù)庫(kù)中百萬量級(jí)的指紋

長(zhǎng)按掃碼 閱讀全文