化繁為簡,數(shù)字化推動企業(yè)數(shù)據(jù)庫升級煥新 | 愛分析報告

報告編委黃勇愛分析合伙人&首席分析師洪逸群愛分析高級分析師張良筠愛分析分析師外部專家(按姓氏拼音排序)李遠(yuǎn)志柏睿數(shù)據(jù) 副總裁謝寅鏡舟科技 資深解決方案架構(gòu)師許哲中信建投證券 數(shù)據(jù)組VP姚延棟YMatrix 創(chuàng)始人&CEO張晨創(chuàng)鄰科技 CEO

特別鳴謝(按拼音排序)

報告摘要

隨著近幾年整個產(chǎn)業(yè)數(shù)字化進程的深入,數(shù)據(jù)庫的應(yīng)用場景變得更多、更復(fù)雜,導(dǎo)致數(shù)據(jù)庫需要應(yīng)對相比以往急劇增長的數(shù)據(jù)規(guī)模,處理更加多樣的數(shù)據(jù)類型,以及具備更加復(fù)雜的場景化能力。

因此,近年來,高性能、非關(guān)系型數(shù)據(jù)支持、簡化使用和運維,場景化解決方案等能力成為企業(yè)應(yīng)用數(shù)據(jù)庫的關(guān)鍵考量因素,多種新一代的數(shù)據(jù)庫也逐漸在企業(yè)中落地。

分析型數(shù)據(jù)庫釋放業(yè)務(wù)數(shù)據(jù)潛在價值

分析型數(shù)據(jù)庫作為數(shù)據(jù)基礎(chǔ)設(shè)施的核心,需要提供高效的數(shù)據(jù)查詢和計算服務(wù)支撐業(yè)務(wù)運轉(zhuǎn)。然而企業(yè)現(xiàn)有的大數(shù)據(jù)引擎逐漸暴露出了即席查詢不夠敏捷、大數(shù)據(jù)量高并發(fā)響應(yīng)慢、固定報表運算效率低下的性能缺陷。此外,多數(shù)據(jù)源存儲系統(tǒng)的分散獨立使得數(shù)據(jù)聯(lián)通查詢分析遇到困難。

針對現(xiàn)有數(shù)據(jù)分析引擎的性能缺陷和多數(shù)據(jù)源無法聯(lián)通的問題,分析型數(shù)據(jù)庫著重提升了即席查詢、大規(guī)模數(shù)據(jù)高并發(fā)查詢、固定報表運算效率,并且提供聯(lián)邦的功能支持跨多數(shù)據(jù)源進行查詢和分析,打破了企業(yè)數(shù)據(jù)孤島,釋放業(yè)務(wù)數(shù)據(jù)價值。

圖數(shù)據(jù)庫助力挖掘數(shù)據(jù)關(guān)聯(lián)關(guān)系

在進行業(yè)務(wù)數(shù)據(jù)分析時,識別數(shù)據(jù)間的關(guān)聯(lián)并對其特點進行研究是一項重要的工作,例如在社交網(wǎng)絡(luò)、金融風(fēng)控、營銷等場景都需要從海量數(shù)據(jù)中發(fā)掘出單體之間的隱藏關(guān)系。但由于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫對關(guān)聯(lián)關(guān)系的查詢能力有限,以及相關(guān)分析工具和解決方案的缺失,關(guān)聯(lián)關(guān)系的挖掘成為企業(yè)面臨的難題。

圖分析解決方案為了應(yīng)對企業(yè)在數(shù)據(jù)關(guān)系探索上的難題,利用圖數(shù)據(jù)庫的存儲和關(guān)系計算能力,支持用戶使用圖算法對海量數(shù)據(jù)進行挖掘并對其關(guān)系特點進行分析。此外,知識圖譜平臺具備圖譜構(gòu)建和知識推理計算能力,將圖的關(guān)聯(lián)關(guān)系轉(zhuǎn)化為知識,實現(xiàn)業(yè)務(wù)洞察。

超融合數(shù)據(jù)庫支撐企業(yè)多元化業(yè)務(wù)快速發(fā)展

中大型企業(yè)在復(fù)雜多樣的業(yè)務(wù)場景中沉淀了海量數(shù)據(jù),而且由于業(yè)務(wù)持續(xù)擴張增長的趨勢,企業(yè)需要不斷加強數(shù)字化基座的能力來匹配海量數(shù)據(jù)規(guī)模和業(yè)務(wù)發(fā)展速度。然而企業(yè)現(xiàn)有的的數(shù)據(jù)庫承載數(shù)據(jù)類型有限并且性能表現(xiàn)不足,難以滿足企業(yè)對數(shù)據(jù)庫服務(wù)的需求。

為了解決在業(yè)務(wù)快速發(fā)展過程中遇到的承載數(shù)據(jù)類型限制和性能表現(xiàn)欠佳的問題,超融合數(shù)據(jù)庫部署了針對不同數(shù)據(jù)類型的專有引擎,技術(shù)架構(gòu)的簡易化不會為企業(yè)增加過多的運維管理成本。同時,超融合數(shù)據(jù)庫具備與常見的專用數(shù)據(jù)庫或大數(shù)據(jù)引擎同等或更好的性能表現(xiàn)。

目錄

1. 報告綜述

2. 分析型數(shù)據(jù)庫

3. 圖數(shù)據(jù)庫

4. 超融合數(shù)據(jù)庫

5. 結(jié)語

1.報告綜述

作為承載各類數(shù)據(jù)存儲和處理需求的基礎(chǔ)設(shè)施,數(shù)據(jù)庫在企業(yè)數(shù)字化轉(zhuǎn)型的過程中起到了關(guān)鍵的支撐作用。但隨著近幾年產(chǎn)業(yè)數(shù)字化進程的深入,數(shù)據(jù)庫的應(yīng)用場景比以往更多、更復(fù)雜,導(dǎo)致數(shù)據(jù)庫需要應(yīng)對以下幾點關(guān)鍵變化和挑戰(zhàn)。

首先,企業(yè)內(nèi)的數(shù)據(jù)規(guī)模在急劇增長。無論是企業(yè)尋求通過數(shù)字化轉(zhuǎn)型實現(xiàn)數(shù)據(jù)驅(qū)動業(yè)務(wù)決策,還是一些新興行業(yè)企業(yè)業(yè)務(wù)的快速擴張,都讓企業(yè)的數(shù)據(jù)量從原先的幾十TB,迅速增長至幾百TB,甚至是PB級。然而傳統(tǒng)的數(shù)據(jù)庫在性能方面,很難應(yīng)對如此大規(guī)模數(shù)據(jù)量的查詢分析。

其次,企業(yè)需要存儲和處理的數(shù)據(jù)類型變得更多樣。關(guān)系型數(shù)據(jù)占主導(dǎo)地位的時代已經(jīng)過去,現(xiàn)在,企業(yè)在很多新興應(yīng)用場景中為了提高數(shù)據(jù)存儲和分析效率,采用了新的數(shù)據(jù)模型。例如,營銷、風(fēng)控中用于關(guān)聯(lián)關(guān)系分析的圖數(shù)據(jù),制造業(yè)中用于記錄生產(chǎn)過程的時序數(shù)據(jù),以及文檔、健值、GIS等各種數(shù)據(jù)模型。如何處理多種類型數(shù)據(jù),成為企業(yè)在數(shù)據(jù)庫層面需要首先解決的問題。

最后,企業(yè)越來越需要數(shù)據(jù)庫具備場景化的解決方案。通常,企業(yè)已經(jīng)建有一定的數(shù)據(jù)基礎(chǔ)設(shè)施,且不同行業(yè)企業(yè)的數(shù)據(jù)應(yīng)用場景往往有一些特殊要求,為了減少數(shù)據(jù)遷移和加載,并加速數(shù)據(jù)分析,企業(yè)需要數(shù)據(jù)庫具備相應(yīng)場景化的功能和解決方案。例如,在大數(shù)據(jù)量固定報表場景,企業(yè)需要數(shù)據(jù)庫具備預(yù)計算能力;在企業(yè)有多套業(yè)務(wù)系統(tǒng)需要聯(lián)合分析的場景,企業(yè)需要數(shù)據(jù)庫具備聯(lián)邦查詢能力;在工業(yè)企業(yè)需要不斷收集數(shù)據(jù)做預(yù)測性維護的場景,企業(yè)需要數(shù)據(jù)庫具備庫內(nèi)機器學(xué)習(xí)的能力。

圖 1: 數(shù)據(jù)庫應(yīng)用面臨的三大挑戰(zhàn)

面對這些變化和挑戰(zhàn),數(shù)據(jù)庫業(yè)內(nèi)一直在升級或推出新的數(shù)據(jù)庫產(chǎn)品,以滿足企業(yè)的需求。為了提升數(shù)據(jù)庫性能,企業(yè)可以采用基于分布式、內(nèi)存存儲,以及多種技術(shù)優(yōu)化的新一代數(shù)據(jù)庫;為了處理多種類型數(shù)據(jù),企業(yè)可以選擇各種專用數(shù)據(jù)庫,如圖數(shù)據(jù)庫、時序數(shù)據(jù)庫、搜索引擎等,而當(dāng)企業(yè)部署了多套數(shù)據(jù)庫系統(tǒng),運維難度大,且又需要做聯(lián)合分析時,在內(nèi)核層融合多類型數(shù)據(jù)處理能力的超融合數(shù)據(jù)庫,則是最佳選擇;為了實現(xiàn)場景解決方案,具備預(yù)計算、聯(lián)邦查詢、庫內(nèi)機器學(xué)習(xí)等其中一種或多種能力的數(shù)據(jù)庫,逐漸成為企業(yè)重點關(guān)注的因素。

為了幫助企業(yè)更好地理解如何應(yīng)用合適的數(shù)據(jù)庫解決企業(yè)面臨的這些普遍問題,本報告選取了分析型數(shù)據(jù)庫、圖數(shù)據(jù)庫和超融合數(shù)據(jù)庫市場的4個典型的數(shù)據(jù)庫應(yīng)用案例,對每個案例中的企業(yè)需求、解決方案和落地效果進行詳細(xì)分析,并總結(jié)提煉案例背后體現(xiàn)的共性價值。 2.分析型數(shù)據(jù)庫 2.1分析型數(shù)據(jù)庫多方位優(yōu)化性能,高效提供數(shù)據(jù)服務(wù)

在數(shù)字化轉(zhuǎn)型的驅(qū)動下,各行業(yè)均呈現(xiàn)出數(shù)據(jù)量爆發(fā)式增長、數(shù)據(jù)應(yīng)用場景多樣化拓展的趨勢。面對海量數(shù)據(jù),如何從中發(fā)掘出有效信息來支持決策,成為企業(yè)業(yè)務(wù)運轉(zhuǎn)和實現(xiàn)轉(zhuǎn)型增長的關(guān)鍵。分析型數(shù)據(jù)庫作為數(shù)據(jù)基礎(chǔ)設(shè)施的核心,不僅要為各系統(tǒng)輸送數(shù)據(jù)查詢和分析的能力,而且要保證自身服務(wù)的高效性來滿足及時用數(shù)的需求。

然而,在業(yè)務(wù)場景不斷拓展、數(shù)據(jù)規(guī)模持續(xù)增長的壓力下,企業(yè)傳統(tǒng)使用的查詢分析引擎性能表現(xiàn)嚴(yán)重不足,無法支持實時業(yè)務(wù)決策,具體表現(xiàn)在: 即席查詢不夠敏捷。在企業(yè)進行決策時,數(shù)據(jù)分析作為了解業(yè)務(wù)運轉(zhuǎn)情況的重要手段之一,需要通過多表關(guān)聯(lián)、自由組合查詢條件的方式對多維度指標(biāo)進行上卷和下鉆探查。然而傳統(tǒng)的分析引擎在大數(shù)據(jù)量、復(fù)雜查詢的場景下逐漸無法適用,會出現(xiàn)響應(yīng)慢,甚至無法獲取查詢結(jié)果的問題,不能夠很好地支持?jǐn)?shù)據(jù)聚合計算、明細(xì)查詢等需求; 大數(shù)據(jù)量、高并發(fā)請求響應(yīng)慢。隨著數(shù)據(jù)查詢和分析的需求逐漸向業(yè)務(wù)端推進,業(yè)務(wù)人員也常常需要進行日常查詢操作來支撐實時決策。然而大型企業(yè)通常業(yè)務(wù)人員眾多,不免帶來同時間下多點并發(fā)查詢的請求,對數(shù)據(jù)庫造成性能壓力,引起響應(yīng)延時的問題; 固定報表運算效率低下。除了自助分析之外,企業(yè)還需要通過固定報表了解關(guān)鍵指標(biāo)的動態(tài)和趨勢。固定報表通常由多個SQL組成,涉及數(shù)據(jù)量大且計算維度多,容易造成數(shù)據(jù)庫計算效率低下的問題。

針對現(xiàn)有數(shù)據(jù)庫在性能上的欠缺,分析型數(shù)據(jù)庫廠商著重提升了即席查詢、大規(guī)模數(shù)據(jù)高并發(fā)執(zhí)行、固定報表等方面的性能來滿足企業(yè)用數(shù)需求。具體從以下方面著手解決問題:

圖2: 優(yōu)化分析型數(shù)據(jù)庫性能加速服務(wù)響應(yīng)

優(yōu)化在大數(shù)據(jù)量、多表關(guān)聯(lián)復(fù)雜計算的能力。分析型數(shù)據(jù)庫通過具備高效數(shù)據(jù)存取的全內(nèi)存架構(gòu)、查詢索引優(yōu)化、多表連接優(yōu)化等手段提升數(shù)據(jù)吞吐量和查詢計算效率,減少業(yè)務(wù)決策的停頓等待時間; 提升數(shù)據(jù)吞吐量、任務(wù)執(zhí)行并發(fā)度。為了滿足大數(shù)據(jù)量、高并發(fā)的數(shù)據(jù)查詢請求,分析型數(shù)據(jù)庫通常采用分布式部署,利用大規(guī)模并行執(zhí)行架構(gòu)的優(yōu)勢,配合均衡分配節(jié)點負(fù)載等手段提升數(shù)據(jù)吞吐量,使數(shù) 據(jù)庫具備多任務(wù)并發(fā)能力; 引入預(yù)計算加速固定查詢。在固定報表的場景下,分析型數(shù)據(jù)庫可以引入預(yù)計算能力,利用構(gòu)建物化視圖的方式復(fù)用常見查詢,加速復(fù)雜SQL計算能力。 2.2高效聯(lián)通多數(shù)據(jù)系統(tǒng),聯(lián)邦查詢跨源提供數(shù)據(jù)查詢

隨著數(shù)據(jù)來源的拓展,以及數(shù)據(jù)存儲系統(tǒng)相對獨立,企業(yè)難以將多數(shù)據(jù)源進行打通,造成數(shù)據(jù)聯(lián)通查詢分析困難的問題。當(dāng)分析人員需要結(jié)合其他業(yè)務(wù)數(shù)據(jù)或站在全局視角進行決策時,會遇到系統(tǒng)間數(shù)據(jù)流轉(zhuǎn)不暢、數(shù)據(jù)加工繁瑣、用數(shù)口徑不一致等問題,難以保證決策的準(zhǔn)確性。

此外,Hadoop大數(shù)據(jù)解決方案需要大量數(shù)據(jù)搬遷,將多源數(shù)據(jù)整合成內(nèi)表進行統(tǒng)一查詢,企業(yè)在已經(jīng)具備成熟的大數(shù)據(jù)存儲引擎的情況下通常進行大規(guī)模數(shù)據(jù)遷移的成本會很高。

圖3:聯(lián)邦功能跨多數(shù)據(jù)源查詢

針對企業(yè)多數(shù)據(jù)源的情況,一些分析型數(shù)據(jù)庫提供聯(lián)邦查詢的功能,支持查詢多源數(shù)據(jù)。外表聯(lián)邦查詢功能通過只保存表對應(yīng)的元數(shù)據(jù),并直接向所在數(shù)據(jù)源發(fā)起查詢,避開了數(shù)據(jù)遷移工作,并且實現(xiàn)了數(shù)據(jù)層面的整合分析。

同時,外表聯(lián)邦查詢功能支持包括MySQL、Elasticsearch、Hive、Iceberg在內(nèi)的多個第三方數(shù)據(jù)源,并且可以滿足用戶對不同維度、不同層面聚合或明細(xì)查詢的多樣需求。 案例1:某國有商業(yè)銀行構(gòu)建實時交互式數(shù)據(jù)分析平臺,高效助力普惠金融業(yè)務(wù)在銀行數(shù)字化轉(zhuǎn)型的過程中,客戶分析和精細(xì)化管理至關(guān)重要。在普惠金融業(yè)務(wù)中,如何對下沉的海量客戶建立數(shù)字普惠全景視圖,實現(xiàn)經(jīng)營狀況及資產(chǎn)質(zhì)量分析、客戶分析、產(chǎn)品分析、營銷分析等交互式數(shù)據(jù)分析能力,對于銀行普惠金融業(yè)務(wù)的開展起到了關(guān)鍵支撐作用。某國有大型商業(yè)銀行充分利用征信、工商、納稅、電力、司法、結(jié)算、供應(yīng)鏈、政務(wù)、采購平臺、貸款信息等行內(nèi)外數(shù)據(jù),將風(fēng)險指標(biāo)融入客戶多維畫像信息,建立普惠金融營銷、準(zhǔn)入、信用評價、授信、定價、貸后監(jiān)測預(yù)警、催收等分析模型,實現(xiàn)關(guān)鍵業(yè)務(wù)指標(biāo)實時報送,提供交互式數(shù)據(jù)分析。該平臺對底層數(shù)據(jù)基礎(chǔ)設(shè)施的實時性、高并發(fā)、穩(wěn)定性和可用性等能力都提出了更高的要求。具體而言,需要解決以下需求:1)海量異構(gòu)數(shù)據(jù)的實時查詢。面對多樣復(fù)雜的客戶畫像數(shù)據(jù),數(shù)據(jù)庫作為支撐業(yè)務(wù)用戶日常在線使用的系統(tǒng),需要能夠執(zhí)行行內(nèi)超過200個以上標(biāo)簽動態(tài)組合以及5張表以上任意條件篩選和組合的復(fù)雜查詢,達(dá)到秒級響應(yīng)時間;2)支撐高并發(fā)業(yè)務(wù)查詢場景。該銀行總共有5萬多位客戶經(jīng)理提供日常對公和對私的業(yè)務(wù)服務(wù),會不免出現(xiàn)同時間下的多點數(shù)據(jù)查詢需求。因此,數(shù)據(jù)庫要能夠在高并發(fā)場景下及時響應(yīng)來滿足精準(zhǔn)營銷和信貸風(fēng)控的業(yè)務(wù)需要;3)能夠穩(wěn)定可靠地對外提供數(shù)據(jù)服務(wù),滿足系統(tǒng)可用性級別要求。金融行業(yè)對數(shù)據(jù)一致性、系統(tǒng)的RPO和RTO指標(biāo)、多數(shù)據(jù)中心等方面有嚴(yán)苛的要求,要保證數(shù)據(jù)不錯不漏、故障無損快速切換,提供多數(shù)據(jù)中心備災(zāi)措施等?;诜植际饺珒?nèi)存數(shù)據(jù)庫RapidsDB構(gòu)建數(shù)據(jù)分析平臺為了滿足以上性能及業(yè)務(wù)需求,該銀行將借助分布式內(nèi)存計算技術(shù)提升數(shù)據(jù)庫分析性能,作為重點考察方向。柏睿數(shù)據(jù)分布式全內(nèi)存數(shù)據(jù)庫RapidsDB在快速部署、集群彈性、性能線性擴展、廣泛兼容、異構(gòu)數(shù)據(jù)支持、海量數(shù)據(jù)計算等多方面獲得行方的高度肯定,從而在行方同類數(shù)據(jù)庫產(chǎn)品選型中脫穎而出。柏睿數(shù)據(jù)成立于 2014 年,是一家以數(shù)據(jù)庫為核心的“Data+AI〞數(shù)據(jù)智能基礎(chǔ)軟件公司,國內(nèi)首家因突破數(shù)據(jù)庫核心技術(shù)而獲得國家級專精特新“小巨人”稱號的民營企業(yè)。柏睿數(shù)據(jù)作為國內(nèi)掌握全內(nèi)存數(shù)據(jù)庫引擎關(guān)鍵專利的企業(yè),基于完全自主研發(fā)的全內(nèi)存分布式數(shù)據(jù)庫產(chǎn)品體系和人工智能產(chǎn)品體系,打造軟硬一體化智能數(shù)據(jù)處理平臺,其產(chǎn)品在算力性能、智能化、安全性、標(biāo)準(zhǔn)化等關(guān)鍵技術(shù)指標(biāo)上均業(yè)界領(lǐng)先,已為金融、政務(wù)、能源、通信、醫(yī)療等眾多行業(yè)標(biāo)桿客戶提供原創(chuàng)性數(shù)字化轉(zhuǎn)型技術(shù)產(chǎn)品服務(wù)。圖4: 基于分布式全內(nèi)存數(shù)據(jù)庫RapidsDB構(gòu)建的實時交互式數(shù)據(jù)分析平臺柏睿分布式全內(nèi)存數(shù)據(jù)庫RapidsDB在該行的普惠金融業(yè)務(wù)場景中代替了原有的“Oracle + ElasticSearch”復(fù)雜技術(shù)棧,實現(xiàn)極速性能提升,而且保證了金融級別的穩(wěn)定可靠和高可用性。為了解決海量用戶數(shù)據(jù)實時查詢的性能問題,RapidsDB采用全內(nèi)存架構(gòu)避開了磁盤訪問I/O,達(dá)到更快的查詢速度;在多表關(guān)聯(lián)場景下,柏睿通過動態(tài)查詢優(yōu)化、索引使用優(yōu)化、join連接優(yōu)化實現(xiàn)了多表關(guān)聯(lián)場景中更強的性能表現(xiàn),達(dá)到復(fù)雜查詢的即時響應(yīng)能力。為了支撐上萬名業(yè)務(wù)經(jīng)理高并發(fā)的查詢需求。RapidsDB采用分布式架構(gòu),通過動態(tài)擴展應(yīng)對任務(wù)執(zhí)行量的增長,并且配合查詢優(yōu)化器均衡分配節(jié)點負(fù)載。同時,RapidsDB通過數(shù)據(jù)結(jié)構(gòu)無鎖化實現(xiàn)了最大程度的并發(fā)能力。針對金融級數(shù)據(jù)可靠性和可用性的要求,首先,RapidsDB在內(nèi)存存儲之外還通過事務(wù)日志和定期快照不斷地將數(shù)據(jù)備份到磁盤,實現(xiàn)數(shù)據(jù)庫內(nèi)存與持久化存儲,如Flash、SSD、HD等,協(xié)同工作來確保數(shù)據(jù)無丟失風(fēng)險。其次,在集群內(nèi)部可用性方面,數(shù)據(jù)節(jié)點通過成對的配置在彼此之間共享數(shù)據(jù)副本,保持?jǐn)?shù)據(jù)實時同步。主備節(jié)點均可對外提供服務(wù),如果出現(xiàn)任何葉的故障,RapidsDB將自動切換副本分區(qū)。在節(jié)點出現(xiàn)故障的情況下,RapidsDB通過將適當(dāng)?shù)母北痉謪^(qū)升級為主分區(qū)來轉(zhuǎn)移節(jié)點故障,以便數(shù)據(jù)庫保持在線。在滿足集群內(nèi)高可用的基礎(chǔ)上,RapidsDB還實現(xiàn)了跨機房數(shù)據(jù)和系統(tǒng)服務(wù)的高可用,支持“同城雙中心”、“兩地三中心”、“三地五中心”等金融級別的災(zāi)備方案,在系統(tǒng)本身發(fā)生故障、應(yīng)用層報錯、網(wǎng)絡(luò)錯誤、人為錯誤等情形下,數(shù)據(jù)庫系統(tǒng)均能保障良好的高可用性?;赗apidsDB數(shù)據(jù)庫的數(shù)據(jù)分析平臺落地后的價值與效果第一,通過RapidsDB在大規(guī)模異構(gòu)數(shù)據(jù)場景下的高性能表現(xiàn),滿足了該銀行對多表關(guān)聯(lián)復(fù)雜查詢的需求。實現(xiàn)了1100億行數(shù)據(jù)、40TB大數(shù)據(jù)量下的實時查詢,支持前端SQL條件靈活組合、最多15個表join的多表復(fù)雜查詢。第二,RapidsDB支撐了全銀行5萬名客戶經(jīng)理的日常查詢服務(wù),具備典型情況下上百個并發(fā)查詢和極端情況下4000多個并發(fā)查詢的能力,能夠充分應(yīng)對業(yè)務(wù)多點并發(fā)的讀取請求,達(dá)到平均3.6秒的響應(yīng)時間。第三,RapidsDB能夠穩(wěn)定可靠地運行,提供99.999%高可用的數(shù)據(jù)服務(wù),滿足金融行業(yè)對數(shù)據(jù)庫的嚴(yán)苛要求,有效支撐了該銀行普惠金融業(yè)務(wù)的快速發(fā)展。項目經(jīng)驗總結(jié)該銀行的數(shù)據(jù)分析平臺成功上線以來,柏睿數(shù)據(jù)RapidsDB分布式全內(nèi)存數(shù)據(jù)庫展現(xiàn)了出色的性能和穩(wěn)定性來支撐該銀行普惠金融業(yè)務(wù)的轉(zhuǎn)型升級。該項目的成功落地為同類型業(yè)務(wù)或者相似規(guī)模的企業(yè)提供了以下分析型數(shù)據(jù)庫的使用建議:1)在類似普惠金融擁有海量多元化數(shù)據(jù)沉淀,并且要求高實時性查詢的業(yè)務(wù)場景中,全內(nèi)存數(shù)據(jù)庫因為運行時不需要將數(shù)據(jù)同步到物理磁盤,從而避免了磁盤I/O限制對系統(tǒng)性能的影響并且減少了系統(tǒng)維護的工作量,所以被該類型業(yè)務(wù)場景所青睞。因此,對于數(shù)據(jù)存取效率要求較高的系統(tǒng),全內(nèi)存數(shù)據(jù)庫可以比主要利用磁盤存取的數(shù)據(jù)庫發(fā)揮更大的性能作用。2)在類似國有銀行員工數(shù)量眾多、內(nèi)部組織架構(gòu)復(fù)雜的大型企業(yè)中,通常有大量業(yè)務(wù)人員同時進行日常查詢操作來保證業(yè)務(wù)正常運轉(zhuǎn)。因此,分析型數(shù)據(jù)庫需要具備分布式相關(guān)技術(shù),通過動態(tài)擴展和平衡分配任務(wù)量支持多點并發(fā)的任務(wù)請求,保證同一時間下查詢的及時響應(yīng)。 案例2:中信建投基于分析型數(shù)據(jù)庫構(gòu)建統(tǒng)一查詢服務(wù)平臺,滿足企業(yè)大規(guī)模用數(shù)需求中信建投證券(簡稱“中信建投”)是經(jīng)中國證監(jiān)會批準(zhǔn)設(shè)立的全國性大型綜合證券公司,其在企業(yè)融資、收購兼并、證券經(jīng)紀(jì)、資產(chǎn)管理、股票及衍生品交易等領(lǐng)域形成了自身特色和核心業(yè)務(wù)優(yōu)勢,并搭建了研究咨詢、信息技術(shù)、運營管理、風(fēng)險管理、合規(guī)管理等專業(yè)高效的業(yè)務(wù)支持體系。目前,中信建投擁有超過1,000萬證券經(jīng)紀(jì)業(yè)務(wù)客戶,托管證券市值超過5.5萬億元,位居行業(yè)第2名。近年來,在證券服務(wù)逐漸互聯(lián)網(wǎng)化,以及券商牌照紅利逐漸消退的行業(yè)背景下,中信建投不斷加大對數(shù)字化的投入,尤其重視數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè),期望在客戶服務(wù)、經(jīng)營管理等多方面由經(jīng)驗依賴向數(shù)據(jù)驅(qū)動轉(zhuǎn)變,從而提高服務(wù)水平和決策效率。因此,在公司總部和各分支機構(gòu),包括經(jīng)紀(jì)、資管、投行等業(yè)務(wù)部門,以及稽核、審計、財務(wù)、法務(wù)等職能部門,對自助分析、多維分析、固定報表和API數(shù)據(jù)服務(wù)等形式的用數(shù)需求一直在不斷增長。為了推動整體數(shù)字化建設(shè)和數(shù)據(jù)治理工作,中信建投已經(jīng)在2019年搭建了基于Hadoop體系的數(shù)據(jù)湖,將大量歷史數(shù)據(jù)遷移到Hadoop上,用Hive對數(shù)據(jù)進行加工處理,所有的查詢計算都通過Presto執(zhí)行。但是,該方案在最近兩年數(shù)據(jù)量快速增長、業(yè)務(wù)場景多樣化發(fā)展的趨勢下逐漸無法適用。具體而言,中信建投目前在數(shù)據(jù)查詢分析中主要存在以下痛點和需求:1)數(shù)據(jù)加工鏈路復(fù)雜。在數(shù)據(jù)分析的流程上,數(shù)據(jù)部門通常是首先用presto做即席查詢,再通過Hive進行數(shù)據(jù)加工,最后將加工過后的數(shù)據(jù)下發(fā)到各部門的Oracle或MySQL事務(wù)型數(shù)據(jù)庫,業(yè)務(wù)人員在事務(wù)數(shù)據(jù)庫里對下發(fā)數(shù)據(jù)進行查詢和分析。整個過程需要在三套系統(tǒng)之間進行數(shù)據(jù)交換,且三套系統(tǒng)使用的SQL語法也不一致,需要不同人員進行開發(fā)維護,從而產(chǎn)生了多種問題:數(shù)據(jù)開發(fā)和維護成本高;數(shù)據(jù)口徑可能不一致,導(dǎo)致數(shù)據(jù)應(yīng)用結(jié)果不準(zhǔn)確;用數(shù)需求難以得到及時滿足,通常要“T+1”才能給到數(shù)據(jù)報表。2)大數(shù)據(jù)量下性能不足,查詢響應(yīng)慢。中信建投目前大部分的數(shù)據(jù)都存儲在Hive中,業(yè)務(wù)部門在進行自助分析時通常涉及的相關(guān)數(shù)據(jù)量較大,而Presto在大數(shù)據(jù)量、多表關(guān)聯(lián)查詢時會出現(xiàn)響應(yīng)比較慢,甚至無法獲得查詢結(jié)果的問題,無法滿足單表及多表復(fù)雜查詢場景下響應(yīng)的及時性。此外,Presto因為資源隔離不足會出現(xiàn)應(yīng)用搶占資源的情況,不能很好支持高并發(fā)的查詢請求。3)大量實時數(shù)據(jù)分散在各個業(yè)務(wù)系統(tǒng),無法進行聯(lián)合分析。由于中信建投內(nèi)部存在非常多的業(yè)務(wù)系統(tǒng),各業(yè)務(wù)系統(tǒng)相互獨立且數(shù)據(jù)會不斷更新,而這些實時數(shù)據(jù)無法更新到Hive中,導(dǎo)致業(yè)務(wù)數(shù)據(jù)之間不能及時打通進行聯(lián)合分析。4)缺少預(yù)計算能力加速固定查詢。固定報表和API數(shù)據(jù)服務(wù)為各業(yè)務(wù)提供包括數(shù)據(jù)匯總結(jié)果、明細(xì)查詢、數(shù)據(jù)接口在內(nèi)的多項能力,而基于固定數(shù)據(jù)查詢的可視化報表通常數(shù)據(jù)查詢量大、計算維度較多,一個看板頁面涉及大約一兩百個SQL語句,整體運算效率低下。針對這種情況,中信建投希望通過預(yù)計算實現(xiàn)查詢加速,并且要求開發(fā)工作輕量化且資源消耗較低。引入StarRocks構(gòu)建統(tǒng)一查詢服務(wù)平臺通過綜合對比數(shù)據(jù)庫即席查詢、實時分析性能、預(yù)計算能力、數(shù)據(jù)聯(lián)邦技術(shù),并且結(jié)合中信建投已經(jīng)在Hadoop體系中有大量投入,不希望做大規(guī)模數(shù)據(jù)搬遷的具體情況,將Hive外表查詢支持、SQL語法及函數(shù)的兼容性等方面納入選型考慮,中信建投最終選擇引入StarRocks來構(gòu)建統(tǒng)一的查詢服務(wù)平臺,滿足各部門的用數(shù)需求。StarRocks是數(shù)據(jù)分析新范式的開創(chuàng)者、新標(biāo)準(zhǔn)的領(lǐng)導(dǎo)者。面世三年來,StarRocks 一直專注打造世界頂級的新一代極速全場景 MPP 數(shù)據(jù)庫,幫助企業(yè)構(gòu)建極速統(tǒng)一的湖倉新范式,是實現(xiàn)數(shù)字化轉(zhuǎn)型和降本增效的關(guān)鍵基礎(chǔ)設(shè)施。當(dāng)前全球超過 200 家市值 70 億元以上的頭部企業(yè)都在基于 StarRocks 構(gòu)建新一代數(shù)據(jù)分析能力,包括騰訊、攜程、平安銀行、中原銀行、中信建投、招商證券、眾安保險、大潤發(fā)、百草味、順豐、京東物流、TCL、OPPO 等,并與全球云計算領(lǐng)導(dǎo)者亞馬遜云、阿里云、騰訊云等達(dá)成戰(zhàn)略合作。項目在 GitHub 星數(shù)已超 3700 個,成為年度開源熱力值增速第一的項目,市場滲透率躋身中國前十名。圖5:中信建投統(tǒng)一數(shù)據(jù)查詢服務(wù)平臺作為一款高性能全場景的分析型數(shù)據(jù)庫,StarRocks使用MPP 架構(gòu)、可實時更新的列式存儲引擎等技術(shù)實現(xiàn)多維、實時、高并發(fā)的數(shù)據(jù)分析。StarRocks 既支持從各類實時和離線的外部數(shù)據(jù)源高效導(dǎo)入數(shù)據(jù),也支持直接分析數(shù)據(jù)湖上各種格式的數(shù)據(jù),統(tǒng)一的SQL交互將數(shù)據(jù)分析結(jié)果或物化視圖預(yù)計算結(jié)果分發(fā)到各個數(shù)據(jù)應(yīng)用,為中信建投實現(xiàn)了三套系統(tǒng)使用功能的整合以及數(shù)據(jù)應(yīng)用流程的簡化。具體而言,針對中信建投的痛點問題,StarRocks具備如下優(yōu)勢:1)在性能方面,針對大規(guī)模數(shù)據(jù)下自助BI敏捷高效的需求。StarRocks向量化執(zhí)行引擎,全面實現(xiàn)了SIMD指令,保證查詢和向量化導(dǎo)入可以充分利用單機單核CPU的處理能力;StarRocks自研的Pipeline協(xié)程引擎,使得StarRocks可以應(yīng)對更高的并發(fā)查詢,充分利用單機多核CPU的處理能力,與此同時可以更優(yōu)雅的進行CPU時間分片調(diào)度從而實現(xiàn)資源隔離的功能;StarRocks采用大規(guī)模并行處理(MPP)架構(gòu),可以充分利用多機多核的集群資源,保證查詢性能可以線性擴展;并用基于成本的優(yōu)化器CBO、RuntimeFilter、延遲物化、全局低基數(shù)字典等多種?段實現(xiàn)極致查詢性能。2)在外部表聯(lián)邦查詢方面,StarRocks可通過創(chuàng)建外部表的?式,在 StarRocks 讀取其他數(shù)據(jù)源,如MySQL、Elasticsearch、Hive等外部表中的數(shù)據(jù),從?打破數(shù)據(jù)的隔離。以Hive外表功能為例,中信建投可以將其Hive中的離線數(shù)據(jù)導(dǎo)? StarRocks 中進??性能分析查詢。同時,StarRocks 也可以扮演數(shù)據(jù)湖的??,將離線數(shù)據(jù)與實時數(shù)據(jù)進?關(guān)聯(lián),打通不同數(shù)據(jù)存儲間的壁壘,從??撐業(yè)務(wù)分析時在數(shù)據(jù)湖中進?數(shù)據(jù)探查和極致分析的需求。3)在預(yù)計算方面,為了實現(xiàn)固定報表的加速,StarRocks引入預(yù)計算的手段,通過創(chuàng)建多表、外表物化視圖的方式對明細(xì)數(shù)據(jù)進行上卷和下鉆,復(fù)用常見查詢有效優(yōu)化了復(fù)雜SQL計算效率,滿足用戶對固定維度聚合分析以及原始明細(xì)數(shù)據(jù)任意維度分析的多樣需求。中信建投統(tǒng)一查詢服務(wù)平臺落地后的效果與價值第一,大數(shù)據(jù)查詢性能得到顯著提升。采用StarRocks內(nèi)部表加速明細(xì)數(shù)據(jù)關(guān)聯(lián)查詢,實現(xiàn)了上億級別數(shù)據(jù)量大表關(guān)聯(lián)秒級響應(yīng),內(nèi)表查詢效率提升10倍以上,外表查詢效率提升1倍以上,完全滿足大數(shù)據(jù)量下查詢分析及時響應(yīng)的需求;第二,預(yù)計算能力降低了固定報表加工成本。采用StarRocks預(yù)計算能力可以將固定報表和API數(shù)據(jù)服務(wù)響應(yīng)速度提升1倍以上。多表物化視圖、外表物化視圖、QueryRewrite等高階功能,可以有效降低數(shù)據(jù)建模成本,使得“直面分析,按需加速”成為可能。第三,降低數(shù)據(jù)遷移成本,提升數(shù)據(jù)管理和使用效率。StarRocks基于Hive外表做查詢,減少了元數(shù)據(jù)和底層數(shù)據(jù)的遷移成本,并實現(xiàn)了實時數(shù)據(jù)聯(lián)通分析。同時,以StarRocks為統(tǒng)一數(shù)據(jù)服務(wù)入口,降低了整體數(shù)據(jù)查詢和加工的復(fù)雜度,提升了數(shù)據(jù)管理和使用效率。項目經(jīng)驗總結(jié)中信建投進行數(shù)字化轉(zhuǎn)型過程中已經(jīng)部署了大部分的數(shù)據(jù)基礎(chǔ)設(shè)施,但是已有的基于Hadoop構(gòu)建數(shù)據(jù)湖的體系在近兩年來暴露出眾多問題,已經(jīng)無法匹配業(yè)務(wù)的發(fā)展速度。中信建投基于自身業(yè)務(wù)需求和已有技術(shù)架構(gòu)情況選擇以StarRocks構(gòu)建統(tǒng)一數(shù)據(jù)服務(wù)入口的實踐,為同類型券商企業(yè)提供了以下經(jīng)驗建議:1)分析型數(shù)據(jù)庫的選型需要充分考慮企業(yè)自身的用數(shù)需求,以及現(xiàn)有數(shù)據(jù)平臺的技術(shù)架構(gòu),選擇符合自身實際情況的數(shù)據(jù)庫是獲得較好的落地效果的關(guān)鍵。例如,中信建投大部分的數(shù)據(jù)都存儲在Hive中,StarRocks提供的類Presto的外表查詢功能可以避免數(shù)據(jù)遷移增加的額外成本,同時也很好地滿足了公司的用數(shù)需求。2)隨著企業(yè)數(shù)據(jù)庫規(guī)模不斷增長,以及分析場景更加復(fù)雜,分析型數(shù)據(jù)庫需要不斷提升數(shù)據(jù)查詢分析的性能,以及針對固定報表、自助BI等各種應(yīng)用場景,提供場景化解決方案、生態(tài)工具,才能滿足用戶在數(shù)據(jù)查詢分析方面功能和性能的復(fù)雜需求。

3.圖數(shù)據(jù)庫 3.1傳統(tǒng)數(shù)據(jù)庫關(guān)系查詢能力不足,圖數(shù)據(jù)庫及相關(guān)解決方案加速業(yè)務(wù)洞察

在各行各業(yè)中都存在著諸多依賴個體屬性及其之間關(guān)聯(lián)信息的場景,例如社交網(wǎng)絡(luò)、金融風(fēng)控、營銷等,需要對單體之間的關(guān)系進行識別,并對其特點進行研究。然而,要在海量的數(shù)據(jù)中,發(fā)掘個體之間隱藏的聯(lián)系,是項很復(fù)雜工作,這為企業(yè)帶來了新的挑戰(zhàn)。具體而言,企業(yè)在關(guān)聯(lián)關(guān)系的探索上,存在以下難點或需求: 傳統(tǒng)的關(guān)系型數(shù)據(jù)庫對數(shù)據(jù)關(guān)聯(lián)關(guān)系查詢的支持有限。對于一些簡單的關(guān)聯(lián)關(guān)系查詢,企業(yè)通常可以采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫解決,但關(guān)系型數(shù)據(jù)庫在進行關(guān)聯(lián)信息檢索時需要執(zhí)行多個表的連接操作,在數(shù)據(jù)關(guān)系較復(fù)雜時,會出現(xiàn)操作繁瑣,且性能嚴(yán)重不足,導(dǎo)致無法查詢結(jié)果的問題。因此,關(guān)系型數(shù)據(jù)庫在實際應(yīng)用中只能執(zhí)行一二度簡單關(guān)系的查詢,而不具備復(fù)雜關(guān)系查詢的能力。 企業(yè)缺少相關(guān)分析工具和解決方案來對關(guān)聯(lián)數(shù)據(jù)進行挖掘分析。在具體應(yīng)用場景中,關(guān)聯(lián)關(guān)系的查詢分析,除了需要底層數(shù)據(jù)庫引擎的支撐,通常還需要結(jié)合領(lǐng)域知識,將關(guān)聯(lián)關(guān)系轉(zhuǎn)換為知識見解,幫助業(yè)務(wù)決策。此外,對于一些復(fù)雜的查詢分析,還需要一些AI算法來加速獲取結(jié)果。

為了解決企業(yè)在數(shù)據(jù)關(guān)系探索上的難題,針對數(shù)據(jù)關(guān)系進行高效存儲和計算的圖數(shù)據(jù)庫獲得了企業(yè)的青睞。作為典型的非結(jié)構(gòu)化數(shù)據(jù)解決方案,圖數(shù)據(jù)庫將關(guān)聯(lián)數(shù)據(jù)的實體作為頂點存儲,關(guān)系作為邊存儲,突破了數(shù)據(jù)復(fù)雜關(guān)聯(lián)存儲查詢造成的性能瓶頸。同時,知識圖譜,以及圖分析算法也為圖數(shù)據(jù)的挖掘分析起到關(guān)鍵作用。圖數(shù)據(jù)庫及相關(guān)的解決方案具體包括如下三方面的內(nèi)容:

圖6:圖分析解決方案賦能數(shù)據(jù)關(guān)系洞察

高性能圖數(shù)據(jù)存儲與處理引擎。圖數(shù)據(jù)庫以圖模型存儲數(shù)據(jù),最大能高效地存儲萬億點邊的數(shù)據(jù),有效承載了企業(yè)沉淀的海量關(guān)系信息。借助優(yōu)秀的關(guān)系傳導(dǎo)能力,圖數(shù)據(jù)庫能夠?qū)崿F(xiàn)高效的多跳查詢,以此發(fā)掘關(guān)系型數(shù)據(jù)庫無法發(fā)現(xiàn)的深度關(guān)系; 圖算法支持高效的數(shù)據(jù)關(guān)系挖掘。借助圖算法,用戶能夠?qū)崿F(xiàn)海量數(shù)據(jù)挖掘和復(fù)雜關(guān)系分析,例如最短路徑,社交網(wǎng)絡(luò)中心性、社區(qū)檢測、社群特征、相似性和分類等常用的圖算法,能夠幫助用戶在紛繁復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,輔助進行業(yè)務(wù)決策; 知識圖譜平臺支持場景應(yīng)用。為了賦能業(yè)務(wù)場景,企業(yè)在具備圖數(shù)據(jù)庫引擎的基礎(chǔ)上,還需要構(gòu)建知識圖譜平臺,將圖的關(guān)聯(lián)關(guān)系轉(zhuǎn)化為知識,從而形成業(yè)務(wù)洞察。通常,知識圖譜平臺需要具備兩大關(guān)鍵的能力:1)知識圖譜構(gòu)建,即利用圖譜構(gòu)建工具,實現(xiàn)知識抽取、知識表示和知識融合,從而構(gòu)建知識圖譜;2)知識推理計算,即通過推理計算引擎,結(jié)合行業(yè)知識,發(fā)現(xiàn)知識中的顯性或隱性關(guān)系。 案例3:民生銀行基于圖數(shù)據(jù)庫構(gòu)建知識圖譜應(yīng)用平臺,通過圖分析盤活數(shù)據(jù)資產(chǎn)作為頭部股份制商業(yè)銀行,民生銀行始終堅定踐行“民營企業(yè)的銀行、敏捷開放的銀行、用心服務(wù)的銀行”的戰(zhàn)略定位,高度重視數(shù)字化轉(zhuǎn)型,主動融入數(shù)字中國建設(shè),著力在“生態(tài)銀行”和“智慧銀行”兩大領(lǐng)域?qū)崿F(xiàn)突破和提升,致力于為客戶提供專業(yè)特色的現(xiàn)代金融服務(wù)。隨著金融行業(yè)數(shù)智轉(zhuǎn)型的進程加快,銀行業(yè)務(wù)數(shù)據(jù)量出現(xiàn)爆炸式增長,對金融行業(yè)的數(shù)據(jù)處理能力提出了更高要求。同時,面向海量數(shù)據(jù)的充分沉淀,挖掘數(shù)據(jù)資產(chǎn)的潛在價值,釋放蘊藏在數(shù)據(jù)要素中的生產(chǎn)力變得至關(guān)重要。對于民生銀行而言,全行業(yè)務(wù)場景眾多,由此積累了規(guī)模龐大的賬戶數(shù)據(jù),也帶來了豐富的用戶關(guān)系信息。在此基礎(chǔ)上,如何選擇新的數(shù)據(jù)庫進行技術(shù)革新,賦能業(yè)務(wù)實現(xiàn)數(shù)據(jù)驅(qū)動的決策,成為民生銀行內(nèi)部一項重要的發(fā)展課題。具體而言,民生銀行需要采用新的數(shù)據(jù)技術(shù)解決以下難題:1)對大規(guī)模的業(yè)務(wù)數(shù)據(jù)進行高效的關(guān)聯(lián)關(guān)系分析與挖掘。風(fēng)險控制和營銷作為銀行兩大重要業(yè)務(wù)發(fā)展手段,需要對海量用戶數(shù)據(jù)進行深度關(guān)聯(lián)關(guān)系挖掘,以識別潛在風(fēng)險、了解客戶偏好。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,數(shù)據(jù)被存儲在二維表中,使用關(guān)系模型檢索需要執(zhí)行多個表的連接操作,在深度關(guān)系挖掘能力與數(shù)據(jù)處理性能上表現(xiàn)嚴(yán)重不足;2)對行內(nèi)數(shù)據(jù)拉通整合,進行統(tǒng)一的查詢分析。民生銀行內(nèi)部各個業(yè)務(wù)系統(tǒng)較為多元,但是未在數(shù)據(jù)層面打通,各個業(yè)務(wù)之間相對獨立,并未建立關(guān)聯(lián)關(guān)系。此外,業(yè)務(wù)人員缺少統(tǒng)一的應(yīng)用平臺對多元化的業(yè)務(wù)進行全局聯(lián)通分析,數(shù)據(jù)管理分散,無法站在全局的視野分析業(yè)務(wù)變化,進行實時決策;3)底層數(shù)據(jù)基礎(chǔ)設(shè)施的研發(fā)難度和成本較大,需要在解決技術(shù)難題的基礎(chǔ)上滿足大型企業(yè)要求的高可用、多租戶、權(quán)限管理等能力需求。此外,隨著國家信創(chuàng)政策日益嚴(yán)格,金融業(yè)作為國家經(jīng)濟命脈,必須充分實現(xiàn)關(guān)鍵數(shù)據(jù)基礎(chǔ)設(shè)施的國產(chǎn)化,具備數(shù)據(jù)庫系統(tǒng)的安全可控性,保障信息安全?;贕alaxybase圖數(shù)據(jù)庫構(gòu)建知識圖譜應(yīng)用平臺,賦能銀行業(yè)務(wù)升級數(shù)字化轉(zhuǎn)型需求驅(qū)動下,民生銀行需要挖掘數(shù)據(jù)關(guān)聯(lián)關(guān)系,發(fā)揮數(shù)字資產(chǎn)價值,更好地提升風(fēng)控、營銷等核心業(yè)務(wù)能力。因此民生銀行決定通過招標(biāo)建設(shè)知識圖譜應(yīng)用平臺,通過綜合考慮大規(guī)模的關(guān)聯(lián)關(guān)系查詢、多元化數(shù)據(jù)拉通整合、底層技術(shù)自主可控以及廠商技術(shù)領(lǐng)先性和實踐經(jīng)驗等因素,最終創(chuàng)鄰科技從眾多圖數(shù)據(jù)庫廠商中脫穎而出。創(chuàng)鄰科技是國內(nèi)領(lǐng)先的商業(yè)化高性能分布式圖數(shù)據(jù)庫供應(yīng)商,在分布式數(shù)據(jù)存儲、大數(shù)據(jù)并行處理、圖挖掘等領(lǐng)域有業(yè)界領(lǐng)先的技術(shù)儲備。創(chuàng)鄰科技聚焦金融板塊,目前已成功服務(wù)五大行、頭部股份制銀行以及城商行、農(nóng)商行等企業(yè)用戶,核心產(chǎn)品Galaxybase國產(chǎn)高性能圖平臺已累計支持?jǐn)?shù)萬億點邊的大型金融圖譜應(yīng)用,性能國際領(lǐng)先。圖7:基于Galaxybase圖數(shù)據(jù)庫構(gòu)建的“萬象”知識圖譜應(yīng)用平臺在創(chuàng)鄰科技的幫助下,民生銀行以大數(shù)據(jù)、人工智能技術(shù)為基礎(chǔ),引入Galaxybase圖數(shù)據(jù)庫構(gòu)建“萬象”知識圖譜應(yīng)用平臺,提供信息展示和交互式分析,具備本體建模、圖譜構(gòu)建、圖譜挖掘、知識服務(wù)的一站式全流程應(yīng)用能力,助力民生銀行業(yè)務(wù)升級。具體而言,基于Galaxybase圖數(shù)據(jù)庫的“萬象”知識圖譜應(yīng)用平臺使民生銀行具備了以下能力:1)借助Galaxybase圖數(shù)據(jù)庫的圖譜可視化和關(guān)系挖掘能力,民生銀行能夠基于圖譜對各類信息拉通聚合,進行關(guān)聯(lián)關(guān)系挖掘,提供信息展示和交互式分析功能。以構(gòu)建企業(yè)全息圖譜為例,通過引入行外的全量工商、司法、知識產(chǎn)權(quán)等復(fù)雜數(shù)據(jù)且對企業(yè)的多重關(guān)系進行分析和挖掘,能夠?qū)崿F(xiàn)關(guān)聯(lián)信息的高效聚合,直觀呈現(xiàn)復(fù)雜客戶關(guān)系網(wǎng)絡(luò),簡化業(yè)務(wù)分析難度。2)圖技術(shù)的形態(tài)識別和關(guān)系傳導(dǎo)能力可以在反欺詐業(yè)務(wù)中發(fā)揮重要作用,依托Galaxybase圖數(shù)據(jù)庫所具備的實時數(shù)據(jù)處理與圖構(gòu)建能力,“萬象”知識圖譜平臺能對信貸申請件數(shù)據(jù)進行實時組網(wǎng),通過設(shè)備信息、地理位置信息、黑樣本、轉(zhuǎn)賬等關(guān)聯(lián)關(guān)系識別定位欺詐團伙,并且結(jié)合傳統(tǒng)欺詐特征和網(wǎng)絡(luò)特征進行機器學(xué)習(xí)對申請條件評分,有效識別欺詐申請,進行及時預(yù)警,實時攔截欺詐風(fēng)險,避免欺詐損失。3)基于圖神經(jīng)網(wǎng)絡(luò)的知識推理,“萬象”知識圖譜平臺能夠提升銀行的營銷能力。通過對涵蓋個人客戶的銀行客群建立經(jīng)營分析圖譜,“萬象”知識圖譜平臺可以基于用戶關(guān)系鏈進行社群關(guān)系推理,利用種子賬戶所在社群觸達(dá)全新用戶并實現(xiàn)拉新,由社群觸達(dá)的新成員,還能夠以不同的速度、方式和幅度進行裂變傳播,有效解決傳統(tǒng)客戶管理系統(tǒng)獲客難的問題,達(dá)成“快速實現(xiàn)賬戶增長,低成本輕松獲客”的目標(biāo)。為了滿足數(shù)據(jù)聯(lián)通整合的需求,民生銀行基于Galaxybase圖數(shù)據(jù)庫對行內(nèi)外跨部門、跨產(chǎn)品、跨業(yè)務(wù)線中的實體及元數(shù)據(jù)信息進行了整合。同時,平臺配備可視化圖分析平臺,業(yè)務(wù)人員無需編程技能即可通過可視化圖形配置界面構(gòu)建知識圖譜、部署圖算法、執(zhí)行計算并展示結(jié)果。此外,Galaxybase圖數(shù)據(jù)庫具備企業(yè)級特性,通過主備集群能力支持?jǐn)?shù)據(jù)庫高可用,并且提供企業(yè)級的運維管理和安全監(jiān)控能力,支持點邊類型和屬性的細(xì)粒度權(quán)限管理。在信創(chuàng)方面,Galaxybase圖數(shù)據(jù)庫為國產(chǎn)自研產(chǎn)品,能夠滿足金融行業(yè)對數(shù)據(jù)技術(shù)安全自主可控的要求。“萬象”知識圖譜平臺落地后的效果與價值第一,打破數(shù)據(jù)孤島,支撐海量數(shù)據(jù)的實時分析與關(guān)聯(lián)價值挖掘。通過構(gòu)建“萬象”知識圖譜應(yīng)用平臺,民生銀行能對行內(nèi)外跨部門、跨產(chǎn)品、跨業(yè)務(wù)線中的實體及元數(shù)據(jù)信息進行整合,構(gòu)建多觸點、全維度的可視化關(guān)聯(lián)信息圖譜,提供360°全景可視化視圖,破除數(shù)據(jù)孤島。同時,“萬象”知識圖譜平臺底層采用的分布式架構(gòu)支持動態(tài)在線擴容,新進的業(yè)務(wù)數(shù)據(jù)也能夠?qū)崟r入網(wǎng),業(yè)務(wù)人員能夠結(jié)合不同的場景利用知識圖譜進行實時決策。第二,圖譜可視化技術(shù)為用戶提供業(yè)務(wù)全流程數(shù)據(jù)關(guān)系展現(xiàn)。“萬象”知識圖譜平臺能夠為業(yè)務(wù)系統(tǒng)輸出圖查詢、關(guān)聯(lián)和計算能力,同時為業(yè)務(wù)分析人員提供全息圖譜,提升內(nèi)外數(shù)據(jù)關(guān)聯(lián)分析能力;針對研發(fā)人員,則提供數(shù)據(jù)關(guān)聯(lián)關(guān)系分析平臺,分析挖掘環(huán)境更加便利,可實現(xiàn)便捷的可視化建模。最后,“萬象”知識圖譜平臺能夠為業(yè)務(wù)沉淀出一系列可視化數(shù)據(jù)產(chǎn)品,實現(xiàn)全流程業(yè)務(wù)能力升級。第三,強勁的多跳查詢性能幫助銀行實現(xiàn)實時深挖隱藏關(guān)聯(lián)關(guān)系。依托于Galaxybase原生分布式并行圖數(shù)據(jù)庫可以極快地處理復(fù)雜的多跳關(guān)聯(lián)關(guān)系,“萬象”知識圖譜應(yīng)用平臺能夠?qū)τ阢y行的海量業(yè)務(wù)數(shù)據(jù)進行多跳查詢,挖掘查找數(shù)據(jù)間的異常關(guān)聯(lián)關(guān)系,因此能夠快速對傳統(tǒng)方法不能找到的風(fēng)險進行預(yù)判和警報,完美契合銀行的反洗錢、反欺詐、對公信貸等業(yè)務(wù)。項目經(jīng)驗總結(jié)在數(shù)字經(jīng)濟時代,為了實現(xiàn)數(shù)據(jù)價值的充分釋放,就需要將數(shù)據(jù)進行關(guān)聯(lián),從單純的數(shù)據(jù)管理轉(zhuǎn)變?yōu)閿?shù)據(jù)關(guān)系的挖掘、分析和利用。民生銀行引入創(chuàng)鄰科技Galaxybase圖平臺建設(shè)知識圖譜應(yīng)用平臺的實踐,為同類型的業(yè)務(wù)場景提供了以下圖數(shù)據(jù)庫及相關(guān)應(yīng)用的選型和使用經(jīng)驗:1)關(guān)注圖數(shù)據(jù)庫底層技術(shù)支撐能力。銀行業(yè)務(wù)數(shù)字化的快速發(fā)展一定會造成行內(nèi)數(shù)據(jù)量爆發(fā)式增長,銀行企業(yè)在選擇圖數(shù)據(jù)庫時一定要考慮在超大數(shù)據(jù)規(guī)模下的底層數(shù)據(jù)庫支撐能力,要能夠在不降低查詢和計算性能的情況下高效實現(xiàn)知識圖譜的構(gòu)建;同時,對于關(guān)聯(lián)關(guān)系的深度挖掘,銀行企業(yè)需要關(guān)注圖數(shù)據(jù)庫的多跳查詢性能,能夠?qū)崟r挖掘復(fù)雜關(guān)系是關(guān)鍵。2)重視信創(chuàng)政策,推進底層國產(chǎn)化替代。對于金融機構(gòu)而言,實現(xiàn)底層數(shù)據(jù)基礎(chǔ)設(shè)施的國產(chǎn)化有助于保證整體系統(tǒng)安全穩(wěn)定地運行,而且數(shù)據(jù)庫及其配套應(yīng)用需要不斷迭代和適配來滿足未來業(yè)務(wù)場景的拓展,建議各銀行在招標(biāo)過程中將圖數(shù)據(jù)庫的國產(chǎn)技術(shù)和圖應(yīng)用解決方案綜合實力納入考慮,旨在減少后續(xù)更換底層數(shù)據(jù)庫的潛在風(fēng)險和成本。 4.超融合數(shù)據(jù)庫 4.1企業(yè)多元化快速發(fā)展,超融合數(shù)據(jù)庫在單一技術(shù)棧上滿足各業(yè)務(wù)需求

在數(shù)字化轉(zhuǎn)型的驅(qū)動下,中大型企業(yè)在復(fù)雜多樣的業(yè)務(wù)場景下沉淀了海量多源異構(gòu)的數(shù)據(jù),而且由于業(yè)務(wù)持續(xù)擴張增長的趨勢,部分企業(yè)需要不斷加強數(shù)字化建設(shè)的力度來匹配業(yè)務(wù)的發(fā)展速度。在這種情況下,中大型企業(yè)現(xiàn)有的數(shù)據(jù)庫解決方案在企業(yè)需求的增長下變得愈發(fā)難以為繼。具體而言,業(yè)務(wù)的極速發(fā)展和數(shù)字化帶來數(shù)據(jù)規(guī)模膨脹、數(shù)據(jù)類型多樣化使得現(xiàn)有的數(shù)據(jù)庫設(shè)施遇到了以下方面的難題:

圖8:大數(shù)據(jù)量、多數(shù)據(jù)類型帶來的數(shù)據(jù)庫使用問題

1.承載數(shù)據(jù)類型有限。業(yè)務(wù)場景的拓展帶來了更加復(fù)雜的數(shù)據(jù)類型,企業(yè)需要對異構(gòu)的數(shù)據(jù)進行高效存儲以便后續(xù)查詢分析,而傳統(tǒng)的關(guān)系型數(shù)據(jù)對非結(jié)構(gòu)化數(shù)據(jù)的承載能力有限。通過引入專用的非結(jié)構(gòu)化數(shù)據(jù)庫,企業(yè)雖然可以存儲與之相對應(yīng)的非結(jié)構(gòu)化數(shù)據(jù),但是卻造成數(shù)據(jù)庫系統(tǒng)分散獨立的情況,難以統(tǒng)一維護管理,從而帶來額外的運維成本。

2.海量數(shù)據(jù)查詢遇到數(shù)據(jù)庫性能的瓶頸。隨著大型企業(yè)快速發(fā)展帶來的數(shù)據(jù)規(guī)模膨脹以及查詢復(fù)雜度的提升,原有數(shù)據(jù)庫在響應(yīng)速度上難以滿足企業(yè)實時查詢分析的需求,從而導(dǎo)致業(yè)務(wù)運轉(zhuǎn)停頓或無法進行數(shù)據(jù)決策。

為了解決企業(yè)在業(yè)務(wù)快速發(fā)展過程中遇到的多數(shù)據(jù)類型和性能方面的難題,超融合數(shù)據(jù)庫是在內(nèi)核層面采用模塊化和插件化的架構(gòu),通過插拔不同類型的數(shù)據(jù)引擎,實現(xiàn)對不同模型數(shù)據(jù)進行處理能力的數(shù)據(jù)庫。超融合數(shù)據(jù)庫能夠支持用戶在一套系統(tǒng)中統(tǒng)一處理關(guān)系、圖、時序、文檔等多種模型的數(shù)據(jù),簡易的架構(gòu)不會為企業(yè)增加過多的運維管理成本。同時,超融合數(shù)據(jù)庫具備與常見的專用數(shù)據(jù)庫或大數(shù)據(jù)引擎同等或更好的性能表現(xiàn)。具體而言,超融合數(shù)據(jù)庫為企業(yè)帶來了以下優(yōu)勢:

圖9:超融合數(shù)據(jù)庫支持多類型數(shù)據(jù),單一架構(gòu)簡化運維

1.支持多種類型數(shù)據(jù)。超融合數(shù)據(jù)庫在單一架構(gòu)上實現(xiàn)了多模態(tài)數(shù)據(jù)的融通管理,通過部署適用于不同數(shù)據(jù)類型的存儲和計算引擎,超融合數(shù)據(jù)庫實現(xiàn)了多種異構(gòu)數(shù)據(jù),例如結(jié)構(gòu)化數(shù)據(jù)、時序數(shù)據(jù)、圖數(shù)據(jù)等,的統(tǒng)一寫入、存儲和管理。

2.簡化運維。超融合數(shù)據(jù)庫采用創(chuàng)新性架構(gòu),利用模塊化的引擎來支持不同類型數(shù)據(jù)的存儲和計算,避免了引入多種專用數(shù)據(jù)庫造成系統(tǒng)冗余的情況。此外,超融合數(shù)據(jù)庫使用統(tǒng)一的應(yīng)用訪問接口和優(yōu)化器簡化系統(tǒng)架構(gòu),在有效支撐業(yè)務(wù)發(fā)展的前提下,極大減少了數(shù)據(jù)庫的運維成本。

3.查詢分析性能提升。超融合數(shù)據(jù)庫相比常見的大數(shù)據(jù)引擎具備更強的性能表現(xiàn),在單表查詢、復(fù)雜SQL運算等能力上均有顯著的提升。此外,超融合數(shù)據(jù)庫還針對不同類型數(shù)據(jù)的處理需求進行優(yōu)化,以獲得比常見專用數(shù)據(jù)庫更強的性能表現(xiàn)??傮w而言,強勁的性能表現(xiàn)能夠縮短數(shù)據(jù)庫服務(wù)響應(yīng)時間,能夠使業(yè)務(wù)運行更加流暢,及時支撐實時決策。 案例4:某新能源頭部制造企業(yè)基于超融合數(shù)據(jù)庫打造“數(shù)據(jù)湖倉平臺”,支撐企業(yè)高速發(fā)展伴隨近年來新能源汽車在全球范圍內(nèi)的銷量劇增,處于新能源汽車產(chǎn)業(yè)鏈重要位置的國內(nèi)某頭部制造企業(yè)也迎來了業(yè)務(wù)的快速發(fā)展。為了提高產(chǎn)能,并降本增效,該企業(yè)需要不斷加強數(shù)字化建設(shè),以支撐全球產(chǎn)品溯源追蹤、生產(chǎn)及售后運營分析、設(shè)備預(yù)測性維護等多項業(yè)務(wù)。然而,隨著該企業(yè)業(yè)務(wù)規(guī)模的迅速擴張,其需要處理的數(shù)據(jù)規(guī)模急劇膨脹,數(shù)據(jù)類型也比以往更加復(fù)雜,導(dǎo)致該企業(yè)原先基于MySQL、Greenplum構(gòu)建的數(shù)據(jù)庫系統(tǒng)面臨顯著的性能和功能瓶頸,也給該企業(yè)的業(yè)務(wù)開展帶來以下挑戰(zhàn):1)原有數(shù)倉集群遭遇性能瓶頸,維護擴容復(fù)雜,難以應(yīng)對業(yè)務(wù)快速增長需求。隨著業(yè)務(wù)的快速擴展,帶來數(shù)據(jù)規(guī)模的快速增長,以及查詢復(fù)雜度快速提升,原有集群的 CPU 使用率長期維持高位運行,導(dǎo)致計算和查詢作業(yè)長時間排隊,致使業(yè)務(wù)間歇性卡頓,部分大型報表的等待時間甚至超過30 分鐘,嚴(yán)重影響了業(yè)務(wù)的運行效率和使用體驗。另一方面,原有數(shù)倉平臺的擴容也需要伴隨較長時間的停機等待,同時不支持?jǐn)?shù)據(jù)的分層存儲管理,這使得對原有平臺進行不斷擴容,在時間和成本上都不可持續(xù)。2)智能制造亟待擴充復(fù)雜時序處理及分析能力。該企業(yè)作為大型制造業(yè)集團,也在積極探索智能制造的轉(zhuǎn)型創(chuàng)新,而首要的是對廣大的生產(chǎn)裝備進行數(shù)字化升級,這帶來廣泛的 IoT 場景需求。在其整體數(shù)據(jù)結(jié)構(gòu)中,除了由常見的 MES、ERP 系統(tǒng)所產(chǎn)生的關(guān)系型數(shù)據(jù),還有由數(shù)采單元面向設(shè)備、物料和流程采集到的時序、GIS 等類型數(shù)據(jù),比如涵蓋近百個指標(biāo)的生產(chǎn)制造設(shè)備工況數(shù)據(jù)、已售出產(chǎn)品的運行數(shù)據(jù)以及歷史維修數(shù)據(jù)等。目前架構(gòu)中是通過 MySQL 和 Greenplum 來承載時序數(shù)據(jù),但 MySQL 及 Greenplum 并不具備專門針對時序場景的強化特性及功能,數(shù)據(jù)承載力和查詢能力都十分有限:•寫入性能:無法承載超大設(shè)備帶來的海量數(shù)據(jù)寫入負(fù)載;•寫入功能:無法支持動態(tài)、亂序、延遲寫入,以應(yīng)對復(fù)雜工況下的數(shù)據(jù)產(chǎn)生環(huán)境;•查詢能力:點查詢性能有限,沒有窗口查詢、庫內(nèi)機器學(xué)習(xí)等。3)數(shù)據(jù)量倍數(shù)增張,總部中心集群負(fù)載壓力大目前,該企業(yè)集團在全國擁有數(shù)十家分支生產(chǎn)基地,每個生產(chǎn)基地的產(chǎn)線系統(tǒng)都需要高性能及可靠穩(wěn)定的數(shù)據(jù)管理系統(tǒng)。面向未來,預(yù)期整個集團將持續(xù)以倍數(shù)級擴充產(chǎn)能,產(chǎn)線數(shù)據(jù)量將翻倍增長,對數(shù)據(jù)管理的承載力、效率、成本和易用性都提出了更高標(biāo)準(zhǔn)。目前所有數(shù)據(jù)直接進入總部,對總部集群造成很大負(fù)載壓力。除了持續(xù)擴容外,在不增加太多運維復(fù)雜度的基礎(chǔ)上,客戶迫切希望建立一套總分結(jié)合的“總部(云)+工廠(邊)”協(xié)同架構(gòu),在增強整體數(shù)據(jù)承載能力的同時,也優(yōu)化各子公司的數(shù)據(jù)平臺能力,實現(xiàn)對整體數(shù)據(jù)管理與治理能力的升級?;诔诤蠑?shù)據(jù)庫,實現(xiàn)一套系統(tǒng)滿足企業(yè)多種類型數(shù)據(jù)存儲與處理需求為了滿足對大規(guī)模、多源異構(gòu)數(shù)據(jù)的存儲與處理需求,該企業(yè)需要引入新的數(shù)據(jù)基座來替換原先的MySQL、Greenplum數(shù)據(jù)庫。在此過程中,該企業(yè)考慮過Hadoop技術(shù)棧,但基于Hadoop技術(shù)棧滿足業(yè)務(wù)需求,需要同時構(gòu)建非常復(fù)雜的開發(fā)和運維體系,成本過高。由于YMatrix超融合數(shù)據(jù)庫具備高性能、支持多種數(shù)據(jù)類型、運維簡單等優(yōu)勢,便成為了該企業(yè)的的最終選擇。YMatrix成立于 2020 年,是一家創(chuàng)新型基礎(chǔ)軟件公司,致力于物聯(lián)網(wǎng)時代新一代數(shù)據(jù)基礎(chǔ)設(shè)施軟件的研發(fā),并提供相關(guān)產(chǎn)品、解決方案及一站式商業(yè)服務(wù)。公司在業(yè)界率先提出超融合數(shù)據(jù)庫理念,并發(fā)布了 YMatrix 超融合數(shù)據(jù)庫,基于獨創(chuàng)的多微內(nèi)核開放架構(gòu),在單一數(shù)據(jù)庫之上,實現(xiàn)多模態(tài)數(shù)據(jù)的融通管理,及全場景查詢分析的統(tǒng)一支持。YMatrix超融合數(shù)據(jù)庫可面向物聯(lián)網(wǎng)應(yīng)用、工業(yè)互聯(lián)網(wǎng)、智能運維、智慧城市、智能家居、車聯(lián)網(wǎng)等場景,提供架構(gòu)簡潔、功能豐富的數(shù)據(jù)基礎(chǔ)設(shè)施,并已在多家行業(yè)頭部公司成功實現(xiàn)商業(yè)化落地。圖10:某新能源頭部制造企業(yè)基于超融合數(shù)據(jù)庫打造的“數(shù)據(jù)湖倉平臺”YMatrix超融合數(shù)據(jù)庫在該企業(yè)內(nèi)替代了原先的MySQl、Greenplum等數(shù)據(jù)庫,在支持多種類型數(shù)據(jù)的存儲、匯集與管理的同時,通過全面的功能承接了各類業(yè)務(wù)需求。具體而言,YMatrix超融合數(shù)據(jù)庫的以下功能特性解決了該企業(yè)此前存在的各種問題:1)支持多種數(shù)據(jù)。由YMatrix超融合數(shù)據(jù)庫承建數(shù)據(jù)湖倉平臺,對接產(chǎn)線MES系統(tǒng)、ERP系統(tǒng)及給類型生產(chǎn)設(shè)備數(shù)采系統(tǒng)等,將TP業(yè)務(wù)數(shù)據(jù)、時序數(shù)據(jù)、GIS數(shù)據(jù)、JSON文本數(shù)據(jù),以及過去的歷史數(shù)據(jù)等等多種數(shù)據(jù),統(tǒng)一進行寫入、存儲、管理,支持?jǐn)?shù)據(jù)亂序、延遲寫入,支持ACID以確保數(shù)據(jù)完整性;2)提供統(tǒng)一的查詢。YMatrix超融合數(shù)據(jù)庫通過標(biāo)準(zhǔn)SQL提供多類型數(shù)據(jù)查詢,在數(shù)據(jù)湖內(nèi)實現(xiàn)數(shù)據(jù)的跨類型聯(lián)合分析,而無需再并行建設(shè)專門的技術(shù)棧;3)支持庫內(nèi)機器學(xué)習(xí)。YMatrix超融合數(shù)據(jù)庫支持庫內(nèi)機器學(xué)習(xí)建模,可代替Flink + Spark,使算法建模及計算在YMatrix集群內(nèi)實現(xiàn),無需大規(guī)模的數(shù)據(jù)ETL過程,大幅簡化系統(tǒng)架構(gòu),且性能大幅提升,算法分析工作效率提升10倍;4)較高的查詢性能。YMatrix超融合數(shù)據(jù)庫針對寫入和分析等重點領(lǐng)域進行了多達(dá)138項深度的指令級的優(yōu)化,能夠在單表查詢、多表關(guān)聯(lián)分析、時序數(shù)據(jù)查詢等常用場景上獲得比主流專用數(shù)據(jù)庫更高的性能。5)簡化運維。YMatrix超融合數(shù)據(jù)庫技術(shù)架構(gòu)簡化靈活,運維人員需要管理的技術(shù)棧變少,因此從根源上降低了其運維復(fù)雜度。同時,YMatrix超融合數(shù)據(jù)庫提供大量圖形化及自動化的運維能力,包括:在線擴容、自動數(shù)據(jù)平衡、數(shù)據(jù)生命周期管理、運維監(jiān)控等,幫助用戶降低操作門檻、獲得更好的使用體驗以及更加自動化的作業(yè)能力。此外,為了降低總部中心集群負(fù)載壓力,YMatrix為該企業(yè)建設(shè)了邊緣數(shù)倉,即在分支工廠部署獨立數(shù)倉平臺,承載工廠的 MES、ERP、PLM 等各系統(tǒng)數(shù)據(jù),完成這些生產(chǎn)數(shù)據(jù)在本級的數(shù)據(jù)歸集,同時進行預(yù)處理查詢分析,篩選出符合總部需要的數(shù)據(jù)后再上傳總部集群。新構(gòu)建的“總部(云)+ 工廠(邊)”協(xié)同架構(gòu),在強化本地數(shù)據(jù)就近處理的能力之上,有效降低了集團集群的負(fù)載,為后期業(yè)務(wù)的長期穩(wěn)定運行及良性擴展奠定架構(gòu)基礎(chǔ)。超融合數(shù)據(jù)庫落地后的價值與效果第一,性能大幅提升,為應(yīng)對業(yè)務(wù)量大規(guī)模擴張奠定基礎(chǔ)。在使用YMatrix超融合數(shù)據(jù)庫后,該企業(yè)解決了原有集群性能不足、擴容服務(wù)器耗時長、報表查詢等待過久等各項問題,查詢耗時最高縮短79%,為平臺支撐的各項業(yè)務(wù)服務(wù)體驗提供充沛的性能支持。第二,為數(shù)智化創(chuàng)新提供新一代通用數(shù)據(jù)基座,并提供更友好的使用體驗,大幅降低運維復(fù)雜度。通過 YMatrix超融合數(shù)據(jù)庫,支持多模態(tài)數(shù)據(jù)的全場景查詢分析需求,能夠服務(wù)企業(yè)級用戶未來 5-10 年可能存在的需求,幫助該企業(yè)避免了產(chǎn)品疊加或技術(shù)架構(gòu)反復(fù)調(diào)整帶來的技術(shù)風(fēng)險和不必要成本。同時,YMatrix超融合數(shù)據(jù)庫通過數(shù)據(jù)超融合能力大幅精簡了系統(tǒng)架構(gòu),并供大量圖形化及自動化的運維能力,從而降低了數(shù)據(jù)庫的運維復(fù)雜度,讓用戶工作更加專注,作業(yè)更加高效。第三,數(shù)據(jù)管理成本獲得有效控制,同時降低總部集群的壓力。YMatrix超融合數(shù)據(jù)庫在為?數(shù)據(jù)平臺帶來了上述優(yōu)化與新功能的同時,在保證性能滿?需求的前提下,使得該企業(yè)每年在資源上的成本開銷減少了?少30%。同時,通過搭建更科學(xué)經(jīng)濟的“總部(云)+ 工廠(邊)”協(xié)同架構(gòu),減少數(shù)據(jù)傳輸成本的同時,降低因組織結(jié)構(gòu)龐大、產(chǎn)能持續(xù)壯大給總部集群帶來的壓力。項目經(jīng)驗總結(jié)當(dāng)前,中國正在從“制造大國”向“制造強國”轉(zhuǎn)型,與此同時,一批代表著戰(zhàn)略新興行業(yè)方向的制造業(yè)企業(yè)在市場需求以及政策推動下,正處在高速發(fā)展過程中。為了實現(xiàn)這樣的目標(biāo),數(shù)智化在其中將會起到關(guān)鍵支撐作用。我們認(rèn)為,上述新能源頭部制造企業(yè)與YMatrix合作的案例,可以為同樣處于快速發(fā)展階段的制造業(yè)企業(yè)帶來以下借鑒意義:第一,數(shù)據(jù)基座的選型需要超前考慮中長期的業(yè)務(wù)發(fā)展需求。隨著企業(yè)業(yè)務(wù)的快速發(fā)展,企業(yè)內(nèi)部數(shù)據(jù)量必然迅速增長,數(shù)據(jù)類型也將變得更加復(fù)雜。由于數(shù)據(jù)庫等基礎(chǔ)設(shè)施的遷移是項成本非常高昂的工作,企業(yè)在選型時需要充分評估未來5-10年的業(yè)務(wù)需求,選擇能夠應(yīng)對中長期數(shù)據(jù)存儲和處理需求的數(shù)據(jù)基座。第二,為避免傳統(tǒng)方案復(fù)雜的開發(fā)和運維,企業(yè)可以考慮創(chuàng)新性的超融合數(shù)據(jù)庫。盡管市場上有一些大數(shù)據(jù)方案能夠滿足企業(yè)各類復(fù)雜的數(shù)據(jù)存儲和處理需求,如Hadoop技術(shù)棧,但面對企業(yè)復(fù)雜的需求,其開發(fā)和運維也非常復(fù)雜。超融合數(shù)據(jù)庫在簡化系統(tǒng)架構(gòu)的同時,具備支持多種數(shù)據(jù)類型、性能高、運維簡單等優(yōu)勢,是處于快速發(fā)展階段的企業(yè)非常理想的選擇。

5.結(jié)語

從本報告所挑選的多個案例中,我們可以看到,看似已經(jīng)非常成熟的數(shù)據(jù)庫市場,在各個細(xì)分方向一直在適應(yīng)企業(yè)不斷變化的需求,往更強的性能、更豐富的功能,更簡化的使用和運維的方向進化,并且這個趨勢還在延續(xù)當(dāng)中。

而對于每個企業(yè)而言,當(dāng)它們在對數(shù)據(jù)基礎(chǔ)設(shè)施進行規(guī)劃,對數(shù)據(jù)庫升級換代時,需要結(jié)合企業(yè)內(nèi)部情況權(quán)衡多方面的問題。既要對業(yè)務(wù)需求進行全局思考,選擇能夠適應(yīng)企業(yè)未來發(fā)展的技術(shù)架構(gòu),也要結(jié)合企業(yè)現(xiàn)階段數(shù)據(jù)基礎(chǔ),滿足在性能、功能、運維等各方面要求的同時,選擇成本更低、使用更簡單的數(shù)據(jù)庫方案。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )