InfoMover實時采集同步:實現數據價值最大化,助力企業(yè)數字化轉型

1653989737712003.jpg

在這個充滿不確定的時代,唯一可以確定的就是企業(yè)的數字化轉型

數字經濟時代,數據生產要素已經明確作為勞動力、資本、技術和土地之后的第五大生產要素,成為推動經濟發(fā)展的核心力量。數字化轉型成為企業(yè)高質量發(fā)展的重要引擎,促進數字技術與實體經濟深度融合也已成為國家“十四五”規(guī)劃的重要內容。

與此同時,新冠疫情的爆發(fā)與蔓延給無數行業(yè)帶來沖擊,讓越來越多的行業(yè)、企業(yè)看到數字化建設、管理、運營的必要性。在這個充滿不確定的時代,唯一可以確定的就是企業(yè)的數字化轉型。

而對于進入數字化轉型階段的企業(yè)而言,數據采集同步能力成為桎梏企業(yè)通往精益之路的巨大技術阻礙。

擁抱實時數據管理,是數字化轉型的必然選擇

不論企業(yè)數字化轉型處于哪一個階段,數據采集同步都是企業(yè)最實際最高頻的需求。

一方面,企業(yè)的精細化運營對實時數據的需求在不斷膨脹,實時數據能夠幫助企業(yè)以最快速度收集來自傳感器(如工業(yè)領域的機器轉速、溫度、壓力、流量等)、股票行情、服務器日志、傳統數據庫甚至是Hadoop系統的數據。以實時或近乎實時的方式挖掘出有價值的信息,對企業(yè)快速做出決策有著重大意義。

另一方面,隨著生產設備和相關技術的智能化升級,以及全球市場無時無刻都在變化的需求,行業(yè)內實時數據的采集與計算相關標準已經提升到了秒級要求,當前的批處理數據架構難以應對,需要構建新一代的實時數據架構體系以實現“換擋加速”。

工具缺乏,自研成本高,企業(yè)實時數據采集同步面臨嚴峻挑戰(zhàn)

企業(yè)在實時數據采集同步過程中面臨著以下的挑戰(zhàn):

1.傳統數據采集工具單一(例如OGG)、封閉、兼容性弱、非高可用;傳統數據傳輸工具性能差、穩(wěn)定性低、響應慢。

2.缺乏專業(yè)數據采集同步工具,數據采集工具自研難度、成本高、易用性不夠,配套工具集成難度大、單獨采購成本高,且與實時數據同步工具銜接復雜;

3.缺乏數據采集經驗,數據采集覆蓋面不全、粒度無法滿足自身業(yè)務要求;

4.數據獲取實時性不夠,數據采集到到業(yè)務可用時效不確定,多端數據采集不規(guī)范;

5.缺乏統一的數據管理與數據加密方案,數據維護成本高;

6.實時開發(fā)門檻高,技術人員需要深入學習計算引擎的底層知識,當業(yè)務邏輯比較復雜時,還需要了解離線與實時如何結合使用,對開發(fā)人員技術能力要求較高。

  InfoMover實時采集同步,逐個擊破采、傳痛點,最大化數據價值釋放

InfoMover實時采集同步是睿帆科技基于開源CDC組件Debezium之上,自主研發(fā)的國產化實時數據采集分布式數據傳輸工具。

InfoMover提供數據源/目標端配置、數據采集/同步(注:數據采集表示數據流式采集;數據同步表示同構或異構數據庫間數據同步)任務管理、實時監(jiān)控、數據一致性校驗、項目用戶權限管理和安全審計等功能,具備可擴展、高并發(fā)、低延遲、數據庫低消耗、高可用、數據重采、對各類數據庫兼容性強等特征,適用于金融、保險、通訊、政府、電商等行業(yè)實現數據實時采集、數據遷移/流轉、數據治理/數據資產管理、數據庫輔助備份等目標,助力于打通各個數據孤島壁壘,實現數據價值最大化。

基于日志的CDC,保障數據一致性和實時性

Change Data Capture(變更數據捕獲)的技術方案非常多,目前業(yè)界主流的實現機制可以分為兩種:一種是基于查詢的 CDC(DataX、Sqoop,kettle),即離線調度查詢作業(yè)批處理。這種實現機制無法保障數據一致性,查的過程中有可能數據已經發(fā)生了多次變更;并且不保障實時性,基于離線調度存在天然的延遲。

而InfoMover實時采集同步采用的正是另一種實現機制:基于日志的 CDC,即實時消費日志流處理。這一機制使得InfoMover與傳統數據采集工具相比有以下優(yōu)勢:

1.確保捕獲所有的數據變更。

2.以極低的延遲生成變更事件,同時避免因為頻繁輪詢導致CPU 使用率增加。

3.不需要更改數據模型,例如‘Last Updated’ 列。

4.可以捕獲刪除操作。

5.可以捕獲舊記錄狀態(tài)以及其他元數據,例如,事務ID(具體取決于數據庫的功能和配置)。

安裝方便、操作簡單,大幅降低使用門檻

InfoMover安裝簡單方便,支持Docker構建發(fā)布,即開即用;支持滾動升級,在不影響正常任務的條件下可完成組件升級,做到升級無感知。

頁面操作簡單易用,指引清晰明確,減少用戶使用過程的學習成本。采集過程的數據統一存放在Kafka消息集群中,并接受安全管控,并具備再流轉到用戶指定的二級Kafka消息集群的能力,助力Flink等工具達到實時計算的目標。

數據同步過程,針對數據庫對象(如表)的結構做了DDL做明確指引,即提供自動處理也具備提供用戶手動執(zhí)行等指引。

低功耗、高可用、高安全

系統資源消耗低:經基準測試驗證,數據采集過程中InfoMover服務1個核2G內存60Mbps帶寬最大可以運行20個采集任務。注:具體情況還需根據客戶實際環(huán)境做相應驗證。

高可用:系統由最少三個節(jié)點組成,一或兩個節(jié)點故障,任務自動跳轉至正常的節(jié)點上;整體服務故障重啟后任務自動從上次斷點停服開始繼續(xù)工作,任務具備自愈能力。支持手動任務數據重采,一旦發(fā)生不可預知的情況導致任務失效,可以通過一鍵“數據重采”恢復任務,從任務級別迅速恢復業(yè)務。

高安全:系統提供項目用戶及鑒權等管理能力;具備對所有操作行為進行安全審計(記錄用戶信息、各種行為與操作,幫助安全審計人員回顧審查工作中存在的安全漏洞及隱患)能力;數據采集匯總到Kafka集群保存過程提供鑒權機制包括SASL/PLAIN, SASL/SCRAM等,確保數據只開放給下游合法申請人;后臺日志做脫敏處理,防止敏感信息外漏。

系統輔助功能齊全:監(jiān)控涵蓋集群組件狀態(tài)、任務狀態(tài)、日志管理、數據質量等,幫助運維盡早盡快發(fā)現故障和問題。

更強大的兼容能力,支撐更多實際業(yè)務場景

目前,InfoMover 2.4版本可以滿足多種數據庫不限于Oracle(10g/11g/12c/19c/21c)、MySQL(5.7/8.X)、PostgreSQL(9.5.x/9.6.x/10/11/12/13/14)、TiDB(4.0.10)之間的數據同步,滿足推送數據至Kafka(2.8/3.X)等消息集群等能力,并在金融資訊部門、通信運營部門數據流轉處理等場景中得到實踐。

InfoMover,價值不止于橋梁

對于企業(yè)而言,InfoMover不僅是數據間流轉的穩(wěn)定可靠“橋梁”,能夠為實時計算提供高效高質量的數據支持,助力企業(yè)數字化轉型,還具備以下兩方面的意義:

1.實現數據從傳統MPP架構升級到大數據平臺、湖倉體系的有利支撐。

近兩年來,湖倉一體的概念興起,企業(yè)開始逐步關注數據平臺架構問題,更強調通過統一的架構,依托一個一站式的多模型數據平臺來解決數據湖、數據倉庫多樣化的數據分析場景。InfoMover實時采集同步是實現數據從傳統MPP架構升級到大數據平臺、湖倉體系的有利支撐。

  2.保障數據安全,助力國產化替代。

數據已經從資源化到資產化,到現在進入要素化時代。而數據安全是一項基礎保障,InfoMover實時采集同步可以構建另類數據備份、容災和遷移模式,保障數據安全,助力國產化替代。

典型案例

證券行業(yè)數據資源較豐富,并且業(yè)務發(fā)展中對數據的依賴程度也較高。隨著業(yè)務發(fā)展,證券公司逐步意識到大數據在企業(yè)戰(zhàn)略中的作用和地位,并在大數據應用領域快速布局。作為未來業(yè)務發(fā)展的重要技術支撐手段,大數據技術、各應用分析模型和算法等將逐漸走進證券公司各項日常運營活動中,凸顯“數據驅動業(yè)務”的重要地位。

1653989812240375.jpg

廣發(fā)證券成立于1991年,是國內首批綜合類證券公司,自1994年開始一直穩(wěn)居全國十大券商行列,是市場上具有較高影響力的證券公司之一。而隨著公司業(yè)務發(fā)展,各部門對實時數據訪問及計算的需求日漸增長,如日間客戶資產實時查詢、客戶交易實時提醒、開戶流失挽回、反洗錢及異常交易監(jiān)控等業(yè)務場景,均需實時計算能力支持。因此,為了滿足Level2行情,委托交易、APP行為埋點等業(yè)務的實時分析需求,急需借助實時數據分析技術,及時洞察用戶旅程,獲取業(yè)務經營動態(tài)與全貌。

針對廣發(fā)證券當前現狀需求,睿帆科技擬通過建設實時數據平臺,基于自主研發(fā)的InfoMover為其搭建實時數據采集模塊,引入數據實時訪問及計算的能力,更好地支持業(yè)務發(fā)展。實時數據平臺建設,以實時數據作業(yè)為核心,體系化覆蓋數據作業(yè)的配置、開發(fā)、管控等全流程功能。系統初步分為四個模塊,分別是數據實時數據采集模塊、實時數倉元數據管理模塊、實時作業(yè)開發(fā)模塊、實時作業(yè)運維管理模塊。

1653989828511863.jpg

此次通過搭建實時數據平臺,幫助廣發(fā)證券全面提高數據敏捷應用開發(fā)能力,快速滿足對海量數據的實時統計分析需求,使其在數據資產管理、運營管理、客戶服務等方面的效率得到快速提升。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )