百度安全開源大規(guī)模圖數(shù)據(jù)庫HugeGraph,助力數(shù)據(jù)安全治理

大數(shù)據(jù)時(shí)代,隨著多元化數(shù)據(jù)的大量出現(xiàn),數(shù)據(jù)信息的關(guān)聯(lián)越來越復(fù)雜,如何高效存儲(chǔ)海量數(shù)據(jù),如何快速處理復(fù)雜的數(shù)據(jù)集合,如何掌握住數(shù)據(jù)之間的關(guān)系進(jìn)而發(fā)揮數(shù)據(jù)融合的價(jià)值?這些問題日益突出。在此情境下,在9月4日2018 ABC SUMMIT百度云智峰會(huì) “AI安全與安全生態(tài)”分論壇上,百度安全宣布全面開源HugeGraph技術(shù),最大程度的發(fā)揮大數(shù)據(jù)時(shí)代數(shù)據(jù)的價(jià)值。

關(guān)系數(shù)據(jù)庫不堪重負(fù),圖數(shù)據(jù)庫應(yīng)運(yùn)而生

隨著社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)和IoT等新的互聯(lián)網(wǎng)應(yīng)用不斷涌現(xiàn),用戶、系統(tǒng)和傳感器產(chǎn)生的數(shù)據(jù)呈指數(shù)級(jí)增長,數(shù)據(jù)內(nèi)部依賴和復(fù)雜度增加。在應(yīng)對這些新的趨勢時(shí),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫產(chǎn)生了較多的不適用性。因此過去的幾年間,出現(xiàn)了許多新型數(shù)據(jù)庫來互相配合或替代關(guān)系數(shù)據(jù)庫,它們被統(tǒng)稱為NoSQL數(shù)據(jù)庫。據(jù)db-engines.com對所有數(shù)據(jù)庫種類發(fā)展趨勢的分析顯示,在各種類型的NoSQL數(shù)據(jù)庫中,圖數(shù)據(jù)庫是其中關(guān)注度最高,也是發(fā)展趨勢最明顯的一種數(shù)據(jù)庫類型。

圖數(shù)據(jù)庫是基于圖論的數(shù)據(jù)庫,其基本含義是以“圖”這種數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)和查詢數(shù)據(jù),是一種新型數(shù)據(jù)庫,可以為復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)提供解決方案。以分析社交網(wǎng)絡(luò)里好友的動(dòng)態(tài)為例,如果用傳統(tǒng)的數(shù)據(jù)庫設(shè)計(jì),就會(huì)有用戶表、用戶好友動(dòng)態(tài)表、用戶好友點(diǎn)贊表等一系列的表,然后把這些表關(guān)聯(lián)起來進(jìn)行查詢,效率極低。而如果用圖數(shù)據(jù)庫來存儲(chǔ),就可以把剛才所有的表納入到一張圖里面,通過圖來解決所有的問題。從形式上來說圖數(shù)據(jù)庫更接近于人類思維方式和現(xiàn)實(shí)世界萬事萬物的關(guān)聯(lián)性。

此次百度安全開源的圖數(shù)據(jù)庫HugeGraph,是百度安全團(tuán)隊(duì)基于安全特定場景和實(shí)際運(yùn)營中的業(yè)務(wù)需求衍生出的一款面向分析型、支持批量操作的圖數(shù)據(jù)庫系統(tǒng)。它能夠與大數(shù)據(jù)平臺(tái)無縫集成,有效解決海量圖數(shù)據(jù)的存儲(chǔ)、查詢和關(guān)聯(lián)分析需求。它可以存儲(chǔ)海量的頂點(diǎn)(Vertex)和邊(Edge),實(shí)現(xiàn)ApacheTinkerPop 3框架, 支持Gremlin查詢語言。值得一提的是,HugeGraph擁有良好的讀寫性能,根據(jù)安全場景的需求,對HugeGraph的核心功能(例如批量寫入、最短路徑、N度關(guān)系等)做了重點(diǎn)優(yōu)化,與常見圖數(shù)據(jù)庫相比較,HugeGraph擁有明顯的性能優(yōu)勢。

打擊網(wǎng)絡(luò)黑產(chǎn),HugeGraph多場景助力網(wǎng)絡(luò)安全治理

百度安全每天需要處理大量的日志數(shù)據(jù),并對數(shù)據(jù)進(jìn)行挖掘分析以識(shí)別各種安全問題,HugeGraph為安全業(yè)務(wù)提供關(guān)聯(lián)分析能力。百度安全已將HugeGraph應(yīng)用到安全數(shù)據(jù)治理項(xiàng)目中,例如網(wǎng)址安全檢測、威脅情報(bào)分析、設(shè)備關(guān)系圖譜和數(shù)據(jù)安全治理等領(lǐng)域,實(shí)施安全數(shù)據(jù)治理策略。

在網(wǎng)址安全檢測中,百度安全利用HugeGraph存儲(chǔ)的網(wǎng)站基本信息,來分析站點(diǎn)之間的關(guān)系,防止用戶通過搜索引擎入口訪問惡意網(wǎng)站,另外從鏈接關(guān)系入手,結(jié)合PageRank等圖挖掘算法,來挖掘網(wǎng)站的異常鏈接,識(shí)別網(wǎng)絡(luò)黑產(chǎn);在設(shè)備關(guān)系圖譜和數(shù)據(jù)安全治理領(lǐng)域,百度安全利用HugeGraph存儲(chǔ)的設(shè)備信息,通過ID-Mapping和關(guān)聯(lián)分析,精確識(shí)別黑產(chǎn)作弊設(shè)備,并為業(yè)務(wù)風(fēng)控提供細(xì)粒度的反作弊策略;在威脅情報(bào)處理方面,百度安全利用HugeGraph將惡意攻擊記錄等信息結(jié)合構(gòu)建威脅情報(bào)關(guān)系網(wǎng),為風(fēng)控業(yè)務(wù)和安全應(yīng)急響應(yīng)中心提供服務(wù),另外在偽造設(shè)備識(shí)別、群控挖掘、自然人識(shí)別等方面,HugeGraph也發(fā)揮了很大的作用。

目前,HugeGraph已經(jīng)在GitHub上實(shí)現(xiàn)開源,并包含數(shù)據(jù)導(dǎo)入、可視化的IDE、命令行、RESTFul API、Client等一系列工具集,歡迎開源社區(qū)、工業(yè)界、學(xué)術(shù)界的用戶支持和貢獻(xiàn)。HugeGraph體系下包含了十多個(gè)關(guān)聯(lián)子項(xiàng)目,具體包括HugeGraph 、HugeGraph-Client、HugeGraph-Loader、HugeGraph-Studio等。

據(jù)悉,百度安全大規(guī)模開源的圖數(shù)據(jù)庫HugeGraph,已經(jīng)助力業(yè)務(wù)協(xié)助公安機(jī)關(guān)破獲多起電信詐騙、偽基站、流量劫持、用戶隱私竊取等重大黑產(chǎn)案件,HugeGraph為公安機(jī)關(guān)提供了打擊溯源的核心能力,全方位實(shí)現(xiàn)從警務(wù)數(shù)據(jù)整合到分析挖掘。未來,百度安全將繼續(xù)發(fā)揮大數(shù)據(jù)和智能安全技術(shù)實(shí)力,助力智慧公安新業(yè)態(tài),踐行企業(yè)社會(huì)責(zé)任。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-09-13
百度安全開源大規(guī)模圖數(shù)據(jù)庫HugeGraph,助力數(shù)據(jù)安全治理
大數(shù)據(jù)時(shí)代,隨著多元化數(shù)據(jù)的大量出現(xiàn),數(shù)據(jù)信息的關(guān)聯(lián)越來越復(fù)雜,如何高效存儲(chǔ)海量數(shù)據(jù),如何快速處理復(fù)雜的數(shù)據(jù)集合,如何掌握住數(shù)據(jù)之間的關(guān)系進(jìn)而發(fā)揮數(shù)據(jù)融合的價(jià)值

長按掃碼 閱讀全文