DeepFlow 電信運營商5G核心網(wǎng)可靠性監(jiān)控運維最佳實踐

事件回顧:加拿大Rogers大規(guī)模斷網(wǎng)

當(dāng)?shù)貢r間2021年4月18日,加拿大第一大移動通信網(wǎng)絡(luò)運營商Rogers Wireless及旗下Fido Solutions發(fā)生超大規(guī)模斷網(wǎng),造成嚴(yán)重的社會影響。此次大規(guī)模斷網(wǎng)事件波及加拿大全國范圍及近千萬用戶、持續(xù)時間長、造成影響大,對Rogers帶了巨大的直接經(jīng)濟損失和間接品牌損失,對加拿大經(jīng)濟產(chǎn)生了重大負(fù)面影響。這也是5G網(wǎng)絡(luò)有史以來最大的事故。此次事件產(chǎn)生的直接原因是5GC設(shè)備商軟件升級,觸發(fā)隱性軟件Bug。經(jīng)過分析,該事故的深層次原因是5GC NFV化,帶來了核心網(wǎng)云網(wǎng)絡(luò)黑盒化問題,導(dǎo)致5GC運維技術(shù)難度高,故障定界定責(zé)定位難度高,難以發(fā)現(xiàn)網(wǎng)元故障征兆,出現(xiàn)故障之后難以快速確定問題界面,難以快速確定故障源。

015GC運維痛點

隨著CT與IT技術(shù)的融合以及5GC NFV化的發(fā)展,逐漸暴露出IT技術(shù)對通信網(wǎng)絡(luò)可靠性的影響。云計算技術(shù)可以為通信網(wǎng)絡(luò)帶來硬件通用化、彈性化、資源池化,業(yè)務(wù)迭代加速等好處,但原有專用設(shè)備的可靠性、易維護性在新的云架構(gòu)中面臨巨大挑戰(zhàn)。

在實際的5GC運維過程中,已經(jīng)暴露出系統(tǒng)“黑盒化”、運維技術(shù)難度高、故障定責(zé)定界難、面向業(yè)務(wù)保障難等一系列挑戰(zhàn)。

正是由于NFV化帶來的網(wǎng)絡(luò)可靠性問題和運維保障困難,各大運營商在現(xiàn)階段只能退而求其次,暫緩5GC三層解耦工作,只推進(jìn)硬件層解耦,或者硬件層與虛擬層、網(wǎng)元層廠商綁定,由5GC廠商來確保網(wǎng)絡(luò)運行可靠性,但實際工作中,5GC廠商在對現(xiàn)網(wǎng)進(jìn)行運維保障時面臨與運營商同樣的技術(shù)挑戰(zhàn)和跨技術(shù)部門協(xié)同的困境。

02DeepFlow云網(wǎng)絡(luò)流量監(jiān)控運維管理平臺

DeepFlow是由云杉網(wǎng)絡(luò)開發(fā),面向云數(shù)據(jù)中心、用于業(yè)務(wù)可靠性保障的一款云網(wǎng)絡(luò)流量監(jiān)控運維管理平臺。

DeepFlow基于云原生的軟探針流量采集技術(shù)、智能流量分析技術(shù),實現(xiàn)對5GC云資源池硬件層網(wǎng)絡(luò)接口、虛擬層網(wǎng)絡(luò)接口、VNF層網(wǎng)絡(luò)接口的全棧流量采集和分析,搭建5GC網(wǎng)絡(luò)智能監(jiān)控分析平臺。

DeepFlow 電信運營商5G核心網(wǎng)可靠性監(jiān)控運維最佳實踐

圖1 DeepFlow 5GC網(wǎng)絡(luò)監(jiān)控架構(gòu)

03方案要點

兼容性強:與各廠商5GC方案全兼容。

低資源消耗:1%的CPU資源、1%的內(nèi)存資源、1?~1%的網(wǎng)絡(luò)帶寬資源。

跨層跨域:硬件層、虛擬化層、容器層全棧流量采集和網(wǎng)絡(luò)性能分析,準(zhǔn)確、客觀反映網(wǎng)元/網(wǎng)絡(luò)狀態(tài),不依賴廠商日志。

秒級定位:智能分析、關(guān)聯(lián)展現(xiàn)任意資源點間端到端、逐跳性能指標(biāo),實現(xiàn)故障秒級定界、定責(zé)、定位。

運維場景:有效支撐丟包、時延、傳輸層異常、應(yīng)用層異常、網(wǎng)絡(luò)風(fēng)暴、信令風(fēng)暴等場景的監(jiān)控、運維、故障定位。

04使用案例

2020年在某電信運營商網(wǎng)絡(luò)云測試資源池進(jìn)行了DeepFlow系統(tǒng)的部署,納管宿主機、虛擬機、容器POD、IP,實現(xiàn)對5GC的納管覆蓋和可視化監(jiān)測分析。

通過在網(wǎng)絡(luò)云測試資源池的部署使用,充分證明了DeepFlow的產(chǎn)品能力,能夠打開5GC云資源池“網(wǎng)絡(luò)黑盒”,實現(xiàn)對所有5GC網(wǎng)元(VNF)不同層次、不同維度的拓?fù)淇梢暬靶阅苤笜?biāo)智能分析;建立面向宿主機、虛擬機、容器、5GC網(wǎng)元的多維度網(wǎng)絡(luò)監(jiān)測視圖,建立跨硬件層、虛擬層、網(wǎng)元層的統(tǒng)一可視化監(jiān)控運維能力,降低各技術(shù)專業(yè)運維難度;通過跨層的可視化能力,解決了故障快速定界、定責(zé)的難題,快速定位故障源,提升解決時效;解決業(yè)務(wù)保障、網(wǎng)元運維、云資源運維、網(wǎng)絡(luò)運維的協(xié)同難題;為5GC云資源池提供針對性的安全觀測手段(信令風(fēng)暴、網(wǎng)絡(luò)風(fēng)暴、DDoS攻擊、非法IP訪問等)。

05故障定位案例

場景1網(wǎng)元微服務(wù)DNS異??焖侔l(fā)現(xiàn)及快速定位

在使用DeepFlow系統(tǒng)對5GC系統(tǒng)進(jìn)行監(jiān)控運維過程中,5GC網(wǎng)元(VNF)的監(jiān)控視圖中發(fā)現(xiàn)PCF的“DNS異常均值”超出合理范圍。

DeepFlow 電信運營商5G核心網(wǎng)可靠性監(jiān)控運維最佳實踐

圖2 PCF的“DNS異常均值”超出合理范圍

在DeepFlow系統(tǒng)中一鍵快速切換到PCF的容器POD視圖中,發(fā)現(xiàn)“cse-etcd-1”的“DNS異常均值”最高,快速鎖定故障源在網(wǎng)元容器POD-“cse-etcd-1”,指導(dǎo)網(wǎng)元運維人員介入處理故障。

DeepFlow 電信運營商5G核心網(wǎng)可靠性監(jiān)控運維最佳實踐

圖3 PCF內(nèi)的某個容器POD的“DNS異常均值”超出合理范圍

一鍵快速切換到“cse-etcd-2”的DNS日志視圖,發(fā)現(xiàn)“cse-etcd-2”的DNS請求被DNS服務(wù)器反饋“名字錯誤”,快速為PCF業(yè)務(wù)運維人提供了詳細(xì)DNS日志用于根因分析。

DeepFlow 電信運營商5G核心網(wǎng)可靠性監(jiān)控運維最佳實踐

圖4 “cse-etcd-2”的異常DNS日志

通過以上過程可以發(fā)現(xiàn),通過DeepFlow云網(wǎng)絡(luò)流量監(jiān)控運維管理平臺,可以快速發(fā)現(xiàn)5GC VNF內(nèi)的異常征兆,分鐘級界定出故障界面發(fā)生在5GC VNF層,分鐘級鎖定出現(xiàn)問題的具體位置在VNF的某個具體容器POD。

場景2網(wǎng)元微服務(wù)TCP建連失敗量異??焖侔l(fā)現(xiàn)及快速定位

在使用DeepFlow系統(tǒng)對5GC系統(tǒng)進(jìn)行監(jiān)控運維過程中,5GC網(wǎng)元(VNF)的監(jiān)控視圖中發(fā)現(xiàn)PCF的TCP建連失敗遠(yuǎn)高于正常值(在5分鐘內(nèi)累計55.45K個)。

DeepFlow 電信運營商5G核心網(wǎng)可靠性監(jiān)控運維最佳實踐

圖5 PCF的TCP建連失敗總量異常

一鍵快速切換到PCF的容器POD視圖中,檢查“建連—失敗總量”排名,發(fā)現(xiàn)“vha-pod211-2”的容器POD異常,快速鎖定故障源在網(wǎng)元容器POD-“vha-pod211-2”,指導(dǎo)PCF網(wǎng)元運維人員介入處理故障。

DeepFlow 電信運營商5G核心網(wǎng)可靠性監(jiān)控運維最佳實踐

圖6 PCF的vha-pod211-2容器POD建連失敗總量異常

一鍵快速切換到“vha-pod211-2”的流日志視圖,可以發(fā)現(xiàn)大量的“服務(wù)端直接重置”異常,快速為網(wǎng)元運維人提供流量日志用于根因分析。

DeepFlow 電信運營商5G核心網(wǎng)可靠性監(jiān)控運維最佳實踐

圖7 PCF的TCP建連失敗流日志

通過以上過程可以發(fā)現(xiàn),通過DeepFlow云網(wǎng)絡(luò)流量監(jiān)控運維管理平臺,可以快速發(fā)現(xiàn)5GC VNF內(nèi)的異常征兆,分鐘級界定出故障界面發(fā)生在5GC VNF層,分鐘級鎖定出現(xiàn)問題的具體位置在VNF的某個具體容器POD。

場景3虛擬機時延異??焖侔l(fā)現(xiàn)及快速定位

在Free5GC搭建的一套5GC環(huán)境中,使用DeepFlow云網(wǎng)絡(luò)流量監(jiān)控運維管理平臺對5GC的全棧流量進(jìn)行采集和可視化分析,通過模擬虛擬化層的故障,在虛擬機接口制造500ms的時延。

通過DeepFlow平臺,在5GC VNF的可視化視圖中,快速發(fā)現(xiàn)AMF->AUSF、AUSF->UDM鏈路出現(xiàn)HTTP時延峰值異常告警(圖8步驟1)。

通過DeepFlow平臺的全棧性能指標(biāo)可視化視圖,可以一鍵快速查閱AUSF->UDM全路徑①-③、⑤-⑦接口的HTTP時延峰值、TCP建連客戶端時延峰值、TCP建連客戶端時延峰值,秒級鎖定問題位置在接口⑤與接口⑥之間,即UDM的宿主機與虛機間的接口導(dǎo)致時延異常(圖8步驟2)。

DeepFlow 電信運營商5G核心網(wǎng)可靠性監(jiān)控運維最佳實踐

圖8 虛擬機時延故障定位過程注1:①AUSF容器接口;②AUSF虛機接口;③AUSF宿主機接口;⑤UDM宿主機接口;⑥UDM虛機接口;⑦UDM容器接口注2:步驟3-5表示HTTP時延、TCP建連客戶端時延、TCP建連客戶端時延的全棧指標(biāo)圖形化解讀。

通過以上過程可以發(fā)現(xiàn),通過DeepFlow云網(wǎng)絡(luò)流量監(jiān)控運維管理平臺,可以快速發(fā)現(xiàn)5GC VNF內(nèi)的異常征兆,分鐘級界定出故障界面發(fā)生在虛擬機層,分鐘級鎖定出現(xiàn)問題的具體位置在某臺虛擬機的某個虛接口。

05DeepFlow產(chǎn)品對5GC的價值

實現(xiàn)云資源池網(wǎng)絡(luò)可視化,打開系統(tǒng)黑盒;

降低云資源池運維對各專業(yè)的技術(shù)挑戰(zhàn);

破解云資源池運維跨層定責(zé)定界、故障源定位難題;

提升業(yè)務(wù)運行可維護性、可靠性;

推進(jìn)三層解耦的技術(shù)發(fā)展和實施落地。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )