原標題:AIOps中的四大金剛都是誰?
智能運維,即AIOps(Artificial Intelligence for IT Operations),是將人工智能的能力與運維相結合,通過機器學習的方法來提升運維效率。
在傳統(tǒng)的自動化運維體系中,重復性運維工作的人力成本和效率問題得到了有效解決。但在復雜場景下的故障處理、變更管理、容量管理、服務資源過程中,仍需要人來掌控決策的過程,這阻礙了運維效率的進一步提升。而AI方法的引入,使得機器能夠代替人來做出決策,從而讓實現(xiàn)完全自動化真正意義上成為可能。
在百度AIOps的落地實施過程中,最關鍵的因素還是人,即AIOps的建設者們。
AIOps作為一個全新的技術發(fā)展和應用方向,并不是簡單地說具備某一種技能或招募一兩個大牛就可以完成的,它需要不同角色、多個團隊的配合才可以達成。根據(jù)近幾年來整個業(yè)界對AIOps的理解和實踐,AIOps參與角色的劃分也越來越清晰。在百度4年的AIOps實踐中,我們總結得出如下四種不可或缺的角色:
運維工程師
運維研發(fā)工程師
平臺研發(fā)工程師
運維AI工程師
可以看到,除了運維AI工程師外,其他角色并不是AIOps產(chǎn)生之后才出現(xiàn)的,他們在傳統(tǒng)運維中也發(fā)揮了重要作用。我們今天主要想和大家探討一下,在AIOps時代,他們的職責究竟發(fā)生了哪些變化。為了方便大家理解,我們會基于百度云智能運維的實踐案例,來進行具體說明。
單機房故障自愈場景
單機房故障自愈是一個典型的百度AIOps落地項目。該方案主要解決的問題場景如下:某個業(yè)務由于網(wǎng)絡、設備、變更、程序Bug、容量等原因造成故障,但故障范圍僅局限在單個機房或單個Region內(nèi)部。那么,我們可以基于流量調(diào)度等手段,將訪問流量調(diào)度到非故障機房或Region,實現(xiàn)該類型故障的自動止損。
整個故障自愈過程分為如下幾個階段:
在這個過程中,需要AIOps四種角色分工明確、緊密配合,來完成整個AIOps解決方案的落地實現(xiàn)。在單機房故障自愈場景下,四種角色的關系如下圖所示:
運維工程師
在單機房故障自愈項目中,運維工程師基于日常運維工作中所積累的場景、問題等方面經(jīng)驗,確定以單機房故障止損作為主要需求和突破口,通過定義單機房故障止損的問題域、解決思路以及風險點,明確AI可以發(fā)力的領域。運維工程師的職責主要包括如下幾個方面:
在完成問題域的定義后,運維工程師需要跟蹤整個單機房故障自愈解決方案的落地,包括在策略設計前期提供數(shù)據(jù)標注支持,在中期進行效果的驗收,在后期將單機房故障自愈方案實際部署運行到生產(chǎn)環(huán)境。
AIOps時代的職責和技能變化
運維工程師承擔線上服務質(zhì)量的責任,是服務質(zhì)量的關鍵保證。在工作過程中,會與研發(fā)、產(chǎn)品、運營等各類角色、不同團隊進行深度的溝通和協(xié)作。
傳統(tǒng)運維中,運維工程師的主要職責分為三個方面:質(zhì)量、成本、效率。
主要包含如下工作內(nèi)容:
在AIOps落地實施中,運維工程師是處于中心的角色,也賦予了新的職責,他們是AIOps具體實施的需求提出者和成果驗收者。具體職責包括:
在AIOps時代,運維工程師一方面需要熟悉運維領域的知識,了解運維的難題和解決思路;另一方面需要了解人工智能和機器學習的思路,能夠理解哪些場景問題適合用機器學習方法解決,需要提供怎樣的樣本和數(shù)據(jù),即成為AI在運維領域落地實施的解決方案專家。
運維AI工程師
在單機房故障自愈場景中,運維AI工程師將機器學習的算法與實際的故障處理業(yè)務場景相結合,針對單機房故障場景的風險點,進行策略研發(fā)與實驗工作。如下圖所示:
運維AI工程師分別設計了如下算法策略來滿足整個復雜故障場景的自動決策:
- 異常檢測算法:解決故障發(fā)現(xiàn)時指標異常判斷問題,基于AI方法實現(xiàn)較高的準確率和召回率,作為整個故障自愈的數(shù)據(jù)基礎。
- 策略編排算法:基于當前線上的實際流量和服務狀態(tài),設計損益計算模型,判斷基于何種方式的操作組合或步驟,能夠使整個自動止損帶來收益最大,風險最小。
- 流量調(diào)度算法:基于線上服務容量與實時流量情況,進行精確流量比例計算,防御容量不足或不準風險,并實現(xiàn)流量調(diào)度收益最大化。
在完成策略設計與研發(fā)后,需要根據(jù)歷史數(shù)據(jù)進行Case回溯,并進行仿真Case模擬,來驗證策略效果,并進行逐步迭代調(diào)優(yōu),以達到線上運行的準確率和召回率要求。
AIOps時代的職責和技能變化
運維AI工程師是將AI引入運維的核心角色。他們針對運維數(shù)據(jù)、運維經(jīng)驗進行理解和梳理,使用機器學習的方法將海量運維數(shù)據(jù)進行匯總、歸納,使得數(shù)據(jù)的價值顯現(xiàn)出來。
運維AI工程師首先需要具備AI工程師的技能,需要對數(shù)學及機器學習方法有足夠的掌握程度,并能應用實踐。如下圖所示AI工程師技能表:
如單機房故障自愈場景中的介紹,運維AI工程師需要具備機器學習知識并將其在運維領域落地的能力。運維AI工程師的職責如下:
平臺研發(fā)工程師
在單機房故障自愈場景中,平臺研發(fā)工程師需要關注三類平臺的建設。如圖所示:
- 基礎運維平臺:提供單機房故障自愈場景中的依賴平臺,如:監(jiān)控平臺和流量調(diào)度平臺。在日常運維中提供標準化運維數(shù)據(jù)獲取和運維操作的基礎,而在AIOps中,這部分接口需要能夠同時支持人工和自動的數(shù)據(jù)獲取和運維操作。
- 智能運維平臺:提供對AI能力的支持,如:統(tǒng)一的數(shù)據(jù)服務(運維知識庫)、運維開發(fā)框架,以及給AI策略實驗和運行的運維策略框架等。
- 故障自愈機器人:針對單個業(yè)務場景進行平臺化抽象,使之成為一個基礎服務,基于AIOps平臺研發(fā)和運行。
AIOps時代的職責和技能變化
平臺研發(fā)工程師負責運維平臺及基礎組件的研發(fā)與建設。
在傳統(tǒng)運維場景中,平臺研發(fā)工程師負責平臺、基礎組件、類庫和工具的研發(fā)工作。在針對運維的場景中,會覆蓋與運維相關的服務管理、監(jiān)控、變更、流量調(diào)度等平臺。
這部分平臺是運維的基礎,在AIOps時代仍然需要依賴于這些平臺的建設。
同時在AIOps場景中,數(shù)據(jù)成為了中心,運維各種狀態(tài)信息轉換為大數(shù)據(jù),機器學習則作用在大數(shù)據(jù)上進行分析。在百度AIOps的實踐中,運維開發(fā)框架、運維知識庫、運維策略框架共同組成了完整的智能運維平臺,三大平臺的建設和實施離不開大數(shù)據(jù)、機器學習架構的引入。
這就要求平臺研發(fā)工程師具備大數(shù)據(jù)、機器學習平臺架構師的多重身份,具備流式計算、分布式存儲、機器學習平臺、算法策略平臺等一系列大數(shù)據(jù)和機器學習平臺架構能力。
運維研發(fā)工程師
基于多個業(yè)務線場景抽象出的單機房故障自愈解決方案,能夠滿足大部分場景需求,但并不意味著可以直接提供給各個業(yè)務線來使用。原因如下:
- 策略和參數(shù)需要進行調(diào)整
- 流量調(diào)度、容災策略等策略,針對不同的業(yè)務線,配置并不相同。例如某些業(yè)務對響應時間敏感,跨地域的調(diào)度會帶來較大的延遲,影響用戶體驗,這時就需要根據(jù)業(yè)務情況配置機房之間的跨機房流量調(diào)度延遲系數(shù),來實現(xiàn)流量優(yōu)先調(diào)度到延遲系數(shù)最低的機房。
- 通用框架無法滿足所有需求
- 部分業(yè)務線需要對原有的策略進行部分重寫才能夠滿足需求。例如,部分業(yè)務在流量調(diào)度時,需要聯(lián)動服務降級來滿足容量需求,這就需要額外增加服務降級聯(lián)動的邏輯。
那么,就需要運維研發(fā)工程師出手來解決這個問題。根據(jù)業(yè)務線的實際情況,對策略和參數(shù)進行配置和調(diào)優(yōu),對通用框架無法滿足的需求,進行定制化研發(fā),使得單機房故障自愈方案能夠?qū)嶋H應用在不同業(yè)務線上。
AIOps時代的職責和技能變化
運維研發(fā)工程師負責基于業(yè)務線特征的運維研發(fā)工作,在傳統(tǒng)運維中,是運維自動化的實施者,實現(xiàn)了針對業(yè)務場景的自動化運維實施落地。其職責如下:
在AIOps時代,運維研發(fā)工程師承擔了AIOps智能化運維解決方案在業(yè)務線實施落地的職責。他們是AIOps場景的實踐者,將AIOps解決方案與業(yè)務架構特征相結合,實現(xiàn)AIOps在業(yè)務線的落地。
一方面,他們會與運維工程師緊密配合,對業(yè)務問題進行深度分析,理解業(yè)務的特點。
另一方面,他們與平臺研發(fā)工程師、AI工程師相配合,基于AIOps解決方案的策略和框架,進行定制化開發(fā),使其適合自身業(yè)務線的特征。
總結
本文介紹了運維工程師、運維AI工程師、平臺研發(fā)工程師、運維研發(fā)工程師四種角色從自動化運維時代到AIOps智能化運維時代,其職責和技能的拓展與變化。AIOps技術為運維技術的發(fā)展帶來了更多的機遇,對于每個參與到AIOps實施的個人或團隊也是如此。四種角色既有術業(yè)專攻,同時又緊密協(xié)作,共同將AI能力引入為運維賦能。那么,你的選擇是什么呢?
作者簡介
運小青 百度云高級研發(fā)工程師
負責百度云智能運維產(chǎn)品(Noah)的研發(fā)工作,推動AIOps的實踐與落地。
- 世間將再無松下電視:松下官宣解散家電子公司并徹底放棄電視機業(yè)務
- 雅迪集團與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來藍圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。