我是一名來自XSKY的運維工程師小張。
應(yīng)公司市場部同學(xué)的邀請,我今天用日記的方式來向大家講述我工作中忙碌又普通的一天。
2020年12月X日,晴,某金融客戶變更日。
8:30 客戶變更室巡檢
剛到門口,就看到部門的新人小浩已經(jīng)在門口朝我揮手了。
“師傅,早呀!”
簡單向他交代幾句,我們就開始進(jìn)行日常巡檢。巡檢的內(nèi)容包括:從界面查看并處理告警、檢查集群是否健康、存儲池與硬盤的負(fù)載與時延、SSD緩存盤的負(fù)載和壽命等。
經(jīng)歷過公司的專業(yè)培訓(xùn),這個過程對我來說并不復(fù)雜,但近20個集群,全部處理完也用了不少時間,當(dāng)然還包括回答小浩同學(xué)的各種問題。
10點30分左右,開始溝通甲方和相關(guān)同事,確認(rèn)當(dāng)晚的變更事項,整理好變更單,申請堡壘機(jī)權(quán)限,為晚上的工作做好準(zhǔn)備。
之后我開始處理郵件,操作手冊規(guī)定“所有變更類操作需要郵件報備部門領(lǐng)導(dǎo)與二線進(jìn)行檢查確認(rèn)”,而我的工作就是確保每個操作步驟都符合規(guī)定,不能出現(xiàn)紕漏。
12:30 餐廳突發(fā)事件
全部處理完已經(jīng)到了午休時間,和大家邊吃邊聊工作,順便提問檢查小浩上午的實踐學(xué)習(xí)情況,但其實他提的問題比我還多。
“張神,咱們負(fù)責(zé)的這個大客戶都用咱們什么產(chǎn)品呀?主要承載上層哪些業(yè)務(wù)…”
雖然不知道為什么我就變成了“張神”,不過給他講一講還是有必要的。
“咱們現(xiàn)在的工作就是保障客戶的存儲集群正常運行,發(fā)現(xiàn)并處理問題,優(yōu)化存儲性能??蛻裟壳笆褂昧宋覀兊腅BS塊存儲和EOS對象存儲兩種產(chǎn)品,有近20個集群,300多臺物理節(jié)點,上面承載很多金融業(yè)務(wù),工作量不小,更需要打起精神。”
正聊著,我的手機(jī)突然響了,是其它項目的客戶。
“八成是來活兒了。”我邊說邊示意大家趕緊吃完。
果不其然,客戶的存儲集群出現(xiàn)了兩個壞盤,不影響使用,可語氣很焦急,希望盡快處理。
“不必?fù)?dān)心,XSKY存儲屬于軟件定義的分布式存儲,按集群架構(gòu),宕掉兩個節(jié)點也不會丟失數(shù)據(jù)。有備用盤,我們可以隨時更換。”
掛上電話,我轉(zhuǎn)頭對小浩說:“回去仔細(xì)看更換硬盤的文檔,下午帶你操作一次。”
15:00 辦公室遠(yuǎn)程服務(wù)
變更操作剛得到總部的確認(rèn),中午聯(lián)系的客戶已迫不及待地打來電話,新硬盤就位,現(xiàn)在就可以更換。
我再次和小浩確認(rèn)了操作步驟:
1、定位故障硬盤在服務(wù)器上的槽位
2、拔出故障硬盤,插入新硬盤
3、圖形界面勾選新硬盤點擊【重建】
更換兩塊硬盤、遠(yuǎn)端機(jī)房硬件工程師的聯(lián)動操作,20分鐘完成。客戶驚訝于過程竟然如此簡單。
“是的,全過程業(yè)務(wù)無感知,就像打印機(jī)換墨盒,屬于常規(guī)操作…”
掛上電話,我開始交代小浩:“明天聯(lián)系一次客戶,更換硬盤后數(shù)據(jù)會做重平衡,確認(rèn)重平衡完成、集群健康,任務(wù)才算完。”
小浩一邊點頭一邊做著記錄,“咱們的產(chǎn)品也太方便了吧,點點鼠標(biāo)就搞定了!”
“研發(fā)的同事付出了很多努力。當(dāng)然,咱們的反饋也很有用,對于產(chǎn)品優(yōu)化來說,咱們就是眼睛,要注意發(fā)現(xiàn)問題,溝通用戶、搜集信息并及時反饋,絕不只是解決完問題就完了。”
16:00 辦公室整理文檔
小浩整理自己的工作筆記,我偷看了一眼,寫的很認(rèn)真,不過他為什么在自己的本子上邊寫邊“涂鴉”?
算了,只要能記清楚,方式不重要。
公司是有知識庫和學(xué)習(xí)文檔的,但每個人的知識面和過程中的感悟是不同的,就像聽同一堂課,學(xué)生們的筆記也不盡相同,但只要勤于總結(jié)、積累,就能把它變成自己的經(jīng)驗。
看完他,我也打開實施報告、工單忙了起來。
18:00 大廳休息時間
晚上還有數(shù)據(jù)遷移的“硬仗”,我提議大家一會兒出去吃飯。
“張神,咱們忙了一天了,我是真不想走遠(yuǎn)路了!”小浩說道。
另一個同事調(diào)侃:“小浩,現(xiàn)在不活動一下,晚上可要盯一夜呢,你見過坐久了,人銹在椅子上嗎?”
他說的沒錯,這是運維工作最難熬的部分,每周都有幾天加班到凌晨三、四點。運維的工作幾乎沒有什么高光時刻,我們要把“用心”放在每時每刻,確保用戶存儲的正常運行,重要但也平凡。
20:00 變更室通宵
數(shù)據(jù)遷移開始了。
這是一場云管、計算、存儲、最終用戶四方聯(lián)動配合的重大變更,由云管協(xié)調(diào),最終用戶遠(yuǎn)端配合,計算端10個終端同時并發(fā)遷移腳本,存儲端時刻監(jiān)控后臺日志與遷移進(jìn)度。
每遷移完一個應(yīng)用,云管負(fù)責(zé)通知最終用戶進(jìn)行驗證,如果存儲端發(fā)現(xiàn)問題,則要及時與計算端進(jìn)行確認(rèn)并迅速處理。緊繃的精神狀態(tài)一直持續(xù)近6個小時,直到凌晨2點多鐘,遷移腳本全部跑完了,用戶端業(yè)務(wù)全部驗證沒有問題,此時對于最終用戶、云管、計算來說,遷移已經(jīng)結(jié)束了,但負(fù)責(zé)存儲的我們還不能離開。
因為此時數(shù)據(jù)還在后臺持續(xù)遷移,因為并發(fā)數(shù)比較高,有些卷還在遷移排隊等待中。我們要在數(shù)據(jù)全部遷移完成后對每一個卷進(jìn)行校驗檢查,確保遷移過程沒有任何問題。
凌晨4點左右,完成全部工作。
我活動活動胳膊,起身拍拍小浩問:“困嗎?”
“剛才遷移過程,我超級緊張,一點都沒覺得困。” 小浩眼睛瞪得很大,不過眼白上已經(jīng)有了不少血絲。
這就是我們的日常工作狀態(tài),沒事做才會困,當(dāng)重要的責(zé)任落在自己肩上,就只會更加認(rèn)真專注。
“下班了,回家。”
04:00(次日)歸途
回家的路上不算太冷清,早餐鋪門口蒸包子的籠屜已經(jīng)冒起白霧,送奶工、快遞員已經(jīng)開始奔波,還有一輛灑水車緩緩開過。
這就是一個運維工程師的凌晨4點。
做運維很忙、很累,但同樣也有相當(dāng)?shù)氖斋@,接觸圈內(nèi)最牛的專家、學(xué)習(xí)行業(yè)最新的技術(shù)、解決問題時成就感滿滿的“幸福一刻”,以及把知識與經(jīng)驗傳承的使命感。
在XSKY技術(shù)服務(wù)部里,就有我的“引路人”,指導(dǎo)我從初出茅廬到獨當(dāng)一面,現(xiàn)在我要在很多個“今天”中讓小浩也能快速成長起來。
每一次客戶的感謝、每一次技能的提升、每一次問題的解決,這就是我熱愛這份工作的原因。
這就是我的故事。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )