DeepFlow 電信運營商5G核心網可靠性監(jiān)控運維最佳實踐

事件回顧:加拿大Rogers大規(guī)模斷網

當?shù)貢r間2021年4月18日,加拿大第一大移動通信網絡運營商Rogers Wireless及旗下Fido Solutions發(fā)生超大規(guī)模斷網,造成嚴重的社會影響。此次大規(guī)模斷網事件波及加拿大全國范圍及近千萬用戶、持續(xù)時間長、造成影響大,對Rogers帶了巨大的直接經濟損失和間接品牌損失,對加拿大經濟產生了重大負面影響。這也是5G網絡有史以來最大的事故。此次事件產生的直接原因是5GC設備商軟件升級,觸發(fā)隱性軟件Bug。經過分析,該事故的深層次原因是5GC NFV化,帶來了核心網云網絡黑盒化問題,導致5GC運維技術難度高,故障定界定責定位難度高,難以發(fā)現(xiàn)網元故障征兆,出現(xiàn)故障之后難以快速確定問題界面,難以快速確定故障源。

015GC運維痛點

隨著CT與IT技術的融合以及5GC NFV化的發(fā)展,逐漸暴露出IT技術對通信網絡可靠性的影響。云計算技術可以為通信網絡帶來硬件通用化、彈性化、資源池化,業(yè)務迭代加速等好處,但原有專用設備的可靠性、易維護性在新的云架構中面臨巨大挑戰(zhàn)。

在實際的5GC運維過程中,已經暴露出系統(tǒng)“黑盒化”、運維技術難度高、故障定責定界難、面向業(yè)務保障難等一系列挑戰(zhàn)。

正是由于NFV化帶來的網絡可靠性問題和運維保障困難,各大運營商在現(xiàn)階段只能退而求其次,暫緩5GC三層解耦工作,只推進硬件層解耦,或者硬件層與虛擬層、網元層廠商綁定,由5GC廠商來確保網絡運行可靠性,但實際工作中,5GC廠商在對現(xiàn)網進行運維保障時面臨與運營商同樣的技術挑戰(zhàn)和跨技術部門協(xié)同的困境。

02DeepFlow云網絡流量監(jiān)控運維管理平臺

DeepFlow是由云杉網絡開發(fā),面向云數(shù)據(jù)中心、用于業(yè)務可靠性保障的一款云網絡流量監(jiān)控運維管理平臺。

DeepFlow基于云原生的軟探針流量采集技術、智能流量分析技術,實現(xiàn)對5GC云資源池硬件層網絡接口、虛擬層網絡接口、VNF層網絡接口的全棧流量采集和分析,搭建5GC網絡智能監(jiān)控分析平臺。

DeepFlow 電信運營商5G核心網可靠性監(jiān)控運維最佳實踐

圖1 DeepFlow 5GC網絡監(jiān)控架構

03方案要點

兼容性強:與各廠商5GC方案全兼容。

低資源消耗:1%的CPU資源、1%的內存資源、1?~1%的網絡帶寬資源。

跨層跨域:硬件層、虛擬化層、容器層全棧流量采集和網絡性能分析,準確、客觀反映網元/網絡狀態(tài),不依賴廠商日志。

秒級定位:智能分析、關聯(lián)展現(xiàn)任意資源點間端到端、逐跳性能指標,實現(xiàn)故障秒級定界、定責、定位。

運維場景:有效支撐丟包、時延、傳輸層異常、應用層異常、網絡風暴、信令風暴等場景的監(jiān)控、運維、故障定位。

04使用案例

2020年在某電信運營商網絡云測試資源池進行了DeepFlow系統(tǒng)的部署,納管宿主機、虛擬機、容器POD、IP,實現(xiàn)對5GC的納管覆蓋和可視化監(jiān)測分析。

通過在網絡云測試資源池的部署使用,充分證明了DeepFlow的產品能力,能夠打開5GC云資源池“網絡黑盒”,實現(xiàn)對所有5GC網元(VNF)不同層次、不同維度的拓撲可視化及性能指標智能分析;建立面向宿主機、虛擬機、容器、5GC網元的多維度網絡監(jiān)測視圖,建立跨硬件層、虛擬層、網元層的統(tǒng)一可視化監(jiān)控運維能力,降低各技術專業(yè)運維難度;通過跨層的可視化能力,解決了故障快速定界、定責的難題,快速定位故障源,提升解決時效;解決業(yè)務保障、網元運維、云資源運維、網絡運維的協(xié)同難題;為5GC云資源池提供針對性的安全觀測手段(信令風暴、網絡風暴、DDoS攻擊、非法IP訪問等)。

05故障定位案例

場景1網元微服務DNS異??焖侔l(fā)現(xiàn)及快速定位

在使用DeepFlow系統(tǒng)對5GC系統(tǒng)進行監(jiān)控運維過程中,5GC網元(VNF)的監(jiān)控視圖中發(fā)現(xiàn)PCF的“DNS異常均值”超出合理范圍。

DeepFlow 電信運營商5G核心網可靠性監(jiān)控運維最佳實踐

圖2 PCF的“DNS異常均值”超出合理范圍

在DeepFlow系統(tǒng)中一鍵快速切換到PCF的容器POD視圖中,發(fā)現(xiàn)“cse-etcd-1”的“DNS異常均值”最高,快速鎖定故障源在網元容器POD-“cse-etcd-1”,指導網元運維人員介入處理故障。

DeepFlow 電信運營商5G核心網可靠性監(jiān)控運維最佳實踐

圖3 PCF內的某個容器POD的“DNS異常均值”超出合理范圍

一鍵快速切換到“cse-etcd-2”的DNS日志視圖,發(fā)現(xiàn)“cse-etcd-2”的DNS請求被DNS服務器反饋“名字錯誤”,快速為PCF業(yè)務運維人提供了詳細DNS日志用于根因分析。

DeepFlow 電信運營商5G核心網可靠性監(jiān)控運維最佳實踐

圖4 “cse-etcd-2”的異常DNS日志

通過以上過程可以發(fā)現(xiàn),通過DeepFlow云網絡流量監(jiān)控運維管理平臺,可以快速發(fā)現(xiàn)5GC VNF內的異常征兆,分鐘級界定出故障界面發(fā)生在5GC VNF層,分鐘級鎖定出現(xiàn)問題的具體位置在VNF的某個具體容器POD。

場景2網元微服務TCP建連失敗量異??焖侔l(fā)現(xiàn)及快速定位

在使用DeepFlow系統(tǒng)對5GC系統(tǒng)進行監(jiān)控運維過程中,5GC網元(VNF)的監(jiān)控視圖中發(fā)現(xiàn)PCF的TCP建連失敗遠高于正常值(在5分鐘內累計55.45K個)。

DeepFlow 電信運營商5G核心網可靠性監(jiān)控運維最佳實踐

圖5 PCF的TCP建連失敗總量異常

一鍵快速切換到PCF的容器POD視圖中,檢查“建連—失敗總量”排名,發(fā)現(xiàn)“vha-pod211-2”的容器POD異常,快速鎖定故障源在網元容器POD-“vha-pod211-2”,指導PCF網元運維人員介入處理故障。

DeepFlow 電信運營商5G核心網可靠性監(jiān)控運維最佳實踐

圖6 PCF的vha-pod211-2容器POD建連失敗總量異常

一鍵快速切換到“vha-pod211-2”的流日志視圖,可以發(fā)現(xiàn)大量的“服務端直接重置”異常,快速為網元運維人提供流量日志用于根因分析。

DeepFlow 電信運營商5G核心網可靠性監(jiān)控運維最佳實踐

圖7 PCF的TCP建連失敗流日志

通過以上過程可以發(fā)現(xiàn),通過DeepFlow云網絡流量監(jiān)控運維管理平臺,可以快速發(fā)現(xiàn)5GC VNF內的異常征兆,分鐘級界定出故障界面發(fā)生在5GC VNF層,分鐘級鎖定出現(xiàn)問題的具體位置在VNF的某個具體容器POD。

場景3虛擬機時延異??焖侔l(fā)現(xiàn)及快速定位

在Free5GC搭建的一套5GC環(huán)境中,使用DeepFlow云網絡流量監(jiān)控運維管理平臺對5GC的全棧流量進行采集和可視化分析,通過模擬虛擬化層的故障,在虛擬機接口制造500ms的時延。

通過DeepFlow平臺,在5GC VNF的可視化視圖中,快速發(fā)現(xiàn)AMF->AUSF、AUSF->UDM鏈路出現(xiàn)HTTP時延峰值異常告警(圖8步驟1)。

通過DeepFlow平臺的全棧性能指標可視化視圖,可以一鍵快速查閱AUSF->UDM全路徑①-③、⑤-⑦接口的HTTP時延峰值、TCP建連客戶端時延峰值、TCP建連客戶端時延峰值,秒級鎖定問題位置在接口⑤與接口⑥之間,即UDM的宿主機與虛機間的接口導致時延異常(圖8步驟2)。

DeepFlow 電信運營商5G核心網可靠性監(jiān)控運維最佳實踐

圖8 虛擬機時延故障定位過程注1:①AUSF容器接口;②AUSF虛機接口;③AUSF宿主機接口;⑤UDM宿主機接口;⑥UDM虛機接口;⑦UDM容器接口注2:步驟3-5表示HTTP時延、TCP建連客戶端時延、TCP建連客戶端時延的全棧指標圖形化解讀。

通過以上過程可以發(fā)現(xiàn),通過DeepFlow云網絡流量監(jiān)控運維管理平臺,可以快速發(fā)現(xiàn)5GC VNF內的異常征兆,分鐘級界定出故障界面發(fā)生在虛擬機層,分鐘級鎖定出現(xiàn)問題的具體位置在某臺虛擬機的某個虛接口。

05DeepFlow產品對5GC的價值

實現(xiàn)云資源池網絡可視化,打開系統(tǒng)黑盒;

降低云資源池運維對各專業(yè)的技術挑戰(zhàn);

破解云資源池運維跨層定責定界、故障源定位難題;

提升業(yè)務運行可維護性、可靠性;

推進三層解耦的技術發(fā)展和實施落地。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )