云杉網(wǎng)絡DeepFlow幫助5G核心網(wǎng)和電信云構建可觀測性

為什么5G核心網(wǎng)和電信云需要可觀測性?在過去的2021年,其實5G核心網(wǎng)在全球發(fā)生了多次影響范圍大、持續(xù)時間長、社會影響廣的故障。2021年的4月份加拿大Rogers發(fā)生了一次長達26個小時全國范圍的移動通信網(wǎng)故障,故障發(fā)生后缺乏快速定位手段,導致故障難以在短時間內(nèi)定位、消除。

5G通信網(wǎng)的穩(wěn)定運行是保障社會穩(wěn)定運行的重要基礎,而5G核心網(wǎng)則是5G通信網(wǎng)的樞紐和大腦,是整個通信網(wǎng)運行、維護、保障的重中之中。通過以上事件可以感知5G核心網(wǎng)在運行穩(wěn)定性上還有待提升,另一方面現(xiàn)有的故障監(jiān)測、快速定位、快速恢復能力存在短板。

5G核心網(wǎng)的運維困境

云杉網(wǎng)絡通過對多個運營商的一線運維技術人員調(diào)研和交流之后,發(fā)現(xiàn)現(xiàn)階段5G核心網(wǎng)的運維痛點集中在:(1)云網(wǎng)絡“黑盒化”:(2)運維技術難度高;(3)故障定責定界難;(4)云平臺面向業(yè)務的保障難。以下舉幾個實際例子。

例子一:當PCF出問題的時候,核心網(wǎng)運維可能會聯(lián)系云平臺“我們這里的PCF1服務不正常,看到服務器上有告警,你們趕緊處理一下”,而云平臺運維可能會覺得“服務器的告警好像和PCF的服務異常沒什么關系,是不是PCF軟件出問題了?”

例子二:某個VNF升級之后,服務有異常,核心網(wǎng)運維查了半天也找不出原因,最后看到虛擬機有告警,反饋給網(wǎng)絡云運維后,很可能得到這樣的反饋“升級前后都有相同的告警,升級前沒有問題,是不是你們新版本軟件的原因?”

1656464587116400.jpg

追究其原因,5G核心網(wǎng)和電信云是通過通用x86+云技術、容器技術,提供軟硬解耦的解決方案,穩(wěn)定性不確定,更多的需要依靠云、容器的動態(tài)、彈性能力提供相對的可靠性。同時,5G核心網(wǎng)完全承載在一個Overlay疊加Underlay的網(wǎng)絡上,網(wǎng)元內(nèi)部復雜的微服務通過一個Full-Mesh的網(wǎng)絡互聯(lián),網(wǎng)元之間的邊界不清晰、路徑不清晰,網(wǎng)絡基本處于“黑盒”狀態(tài)。由此也不難看出:可觀測性對5G核心網(wǎng)的可靠性運行非常重要!

近幾年,云原生可觀測性已經(jīng)成為IT領域解決業(yè)務可靠性的重要理論,“可觀測性=可靠性”基本成為IT運維的共同認知。所謂云原生可觀測性,簡單來說就是快速有效的診斷復雜業(yè)務系統(tǒng)內(nèi)部的運行狀態(tài)。經(jīng)過近十年的發(fā)展,云杉網(wǎng)絡從SDN核心技術逐步走向網(wǎng)絡自動化和可觀測性,致力解決云原生應用診斷難的核心痛點,其中DeepFlow產(chǎn)品在各行各業(yè)積累了大量的實戰(zhàn)經(jīng)驗,成功幫助數(shù)家企業(yè)構建多維度、一體化的可觀測性平臺。

DeepFlow幫助5G核心網(wǎng)和電信云構建可觀測性

DeepFlow是一款面向5G核心網(wǎng),應對網(wǎng)絡功能服務(NFS)解耦后的新挑戰(zhàn),進行網(wǎng)絡流量采集、分發(fā)、可視化與監(jiān)控保障的產(chǎn)品。幫助運營商在5G核心網(wǎng)基于服務架構中統(tǒng)一采集網(wǎng)絡、系統(tǒng)、應用的可觀測指標數(shù)據(jù),并動態(tài)關聯(lián)其資源、服務、業(yè)務、事件等屬性,實現(xiàn)對5G核心網(wǎng)全景性能監(jiān)控;并提供容器化后網(wǎng)元服務間訪問調(diào)用的全棧鏈路追蹤,幫助構建5G核心網(wǎng)可觀測性能力,應對云原生特點,緊密結合5G服務,解決5G核心網(wǎng)生產(chǎn)中遇到的監(jiān)控、運維、保障等難題。

1.多維度、深層次5G核心網(wǎng)全景性能監(jiān)控

在5G核心網(wǎng)中,自身運行的網(wǎng)絡IP節(jié)點數(shù)量已經(jīng)百倍以上規(guī)模的增長,容器化微服務POD形成一個Full-Mesh的網(wǎng)絡,網(wǎng)絡的虛擬化、彈性變化,使得整個5G核心網(wǎng)的內(nèi)部網(wǎng)絡“黑盒化”。

對5G核心網(wǎng)來說,可以通過DeepFlow的采集器技術,實現(xiàn)網(wǎng)絡+應用的全面可觀測性,不用再依賴5GC開發(fā)廠商的日志輸出能力、指標輸出能力、用戶追蹤數(shù)據(jù)輸出能力。同時借助DeepFlow強大的數(shù)據(jù)分析能力,可以對5G核心網(wǎng)網(wǎng)元、云平臺,從宏觀到微觀、不同層次、不同維度的全景性能監(jiān)控。

比如,云平臺運維人員:可以從全網(wǎng)宿主機的觀測視圖,監(jiān)測云資源池、宿主機之間的流量互訪拓撲、業(yè)務訪問性能;可以從單網(wǎng)元的宿主機觀測視圖,監(jiān)測某個網(wǎng)元(比如AMF或SMF)的VNF軟件內(nèi)部的微服務/模塊在宿主機上的分布情況,在宿主機之間的互訪拓撲、互訪性能,快速發(fā)現(xiàn)宿主機維度的異常情況。

比如,核心網(wǎng)運維人員:通過VNF網(wǎng)元的維度,觀測全網(wǎng)VNF網(wǎng)元SBI口的業(yè)務互訪關系和業(yè)務互訪性能;通過VNF網(wǎng)元內(nèi)部的微服務POD維度,觀測VNF網(wǎng)元內(nèi)部POD粒度的互訪關系、互訪性能;通過POD到POD的網(wǎng)絡全棧鏈路追蹤,觀測任意一次客戶端到服務端在云網(wǎng)絡中的流量流轉(zhuǎn)路徑。

2.跨層、逐段分解網(wǎng)絡全棧鏈路追蹤

DeepFlow的網(wǎng)絡全棧鏈路追蹤,是解決5G核心網(wǎng)、云平臺之間快速跨層故障定界的關鍵能力,將虛擬化所實現(xiàn)的邏輯通信進行逐步展開,清晰展示每段的網(wǎng)絡狀態(tài)、性能,結合知識圖譜及豐富的指標數(shù)據(jù),快速定位性能異常的問題范圍邊界。

對于5G核心網(wǎng)和電信云平臺的運維人員來說,目前最頭痛事情就是故障的跨層定界,通過DeepFlow跨層的網(wǎng)絡全棧鏈路追蹤,可以非常迅速的確定某一次業(yè)務訪問是否有丟包、時延問題,并快速確定故障發(fā)生的位置,從而在云平臺和軟件層之間做快速的定界、定位。

3.業(yè)務訪問從應用到網(wǎng)絡端到端追蹤

除了全棧鏈路追蹤,DeepFlow對每一次業(yè)務訪問的應用層實現(xiàn)了應用+網(wǎng)絡的端到端追蹤。運維人員可以通過系統(tǒng)檢索、分析、追蹤任意一次訪問,快速洞察應用異常。“從客戶端進程——>服務1進程——>服務2進程——>……——>服務n”的端到端服務調(diào)用關系,每一段服務調(diào)用的時延、異常均實現(xiàn)了關聯(lián)分析,包括每一段服務調(diào)用的流量在云網(wǎng)絡中的關鍵路徑及時延指標關聯(lián)分析,可以說DeepFlow實現(xiàn)了應用+網(wǎng)絡統(tǒng)一的可觀測性,并且深入且細致到每一次業(yè)務訪問的粒度。

在5G核心網(wǎng)領域,監(jiān)控、運維、保障都是新難題,作為一家IT網(wǎng)絡解決方案廠商,云杉網(wǎng)絡將加大創(chuàng)新力度,重點發(fā)展5G方面的業(yè)務,持續(xù)為中國5G高質(zhì)量發(fā)展貢獻力量。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )