隨著各行各業(yè)數(shù)字化轉(zhuǎn)型升級(jí)的加速,數(shù)據(jù)存儲(chǔ)容量和硬盤(pán)數(shù)量也在不斷增加,數(shù)據(jù)丟失事件時(shí)有發(fā)生,特別是硬盤(pán)故障事件,一旦發(fā)生,對(duì)于業(yè)務(wù)的影響不可估量。
超融合在磁盤(pán)故障提前檢測(cè)及處置方面是如何做的?今天就跟大家揭秘信服云的卡慢盤(pán)監(jiān)控和隔離機(jī)制。
深信服超融合持續(xù)對(duì)主機(jī)上的硬盤(pán)進(jìn)行IO級(jí)監(jiān)控,如發(fā)現(xiàn)有卡盤(pán)或者慢盤(pán),就會(huì)對(duì)硬盤(pán)進(jìn)行隔離處理,避免繼續(xù)有IO落入該硬盤(pán)導(dǎo)致業(yè)務(wù)卡死或者變慢。超融合卡慢盤(pán)檢測(cè)隔離機(jī)制在應(yīng)用過(guò)程中分為監(jiān)控、識(shí)別和處置三個(gè)階段。
一、監(jiān)控
針對(duì)磁盤(pán)卡慢故障模式復(fù)雜的問(wèn)題,多維度檢測(cè)確診。
超融合采用了Linux通用的工具和信息,包括內(nèi)核日志分析、smart信息分析、硬盤(pán)IO監(jiān)控?cái)?shù)據(jù)分析等從多個(gè)維度精確定位故障硬盤(pán),真正實(shí)現(xiàn)不依賴(lài)特定硬件工具、兼容性廣的軟件定義可靠性。
二、識(shí)別
對(duì)識(shí)別卡慢盤(pán)的模型進(jìn)行細(xì)致打磨:超融合卡慢盤(pán)檢測(cè)機(jī)制在識(shí)別階段,使用了《卡慢盤(pán)識(shí)別與處理方案》《一種卡慢盤(pán)識(shí)別處理方法、裝置以及存儲(chǔ)介質(zhì)》《一種慢盤(pán)故障精準(zhǔn)識(shí)別和診斷方法》等專(zhuān)利技術(shù),制定出了更加精準(zhǔn)的卡慢盤(pán)識(shí)別模型,使卡慢盤(pán)的識(shí)別準(zhǔn)確率在99%以上。最終將卡慢盤(pán)分為三種類(lèi)型:卡慢、嚴(yán)重慢盤(pán)、輕微慢盤(pán)。
三、處置
超融合針對(duì)不同類(lèi)型的卡慢盤(pán)采用不同的處置方法,避免業(yè)務(wù)數(shù)據(jù)落在卡慢盤(pán)上,保障業(yè)務(wù)數(shù)據(jù)安全。在上述前提下,盡可能保障業(yè)務(wù)正常對(duì)外提供服務(wù)。
超融合針對(duì)不同類(lèi)型卡慢盤(pán)處置流程如下:
(1)輕微慢盤(pán)
輕微卡慢對(duì)業(yè)務(wù)性能影響較小,優(yōu)先保障業(yè)務(wù)運(yùn)行。超融合會(huì)在WEB控制臺(tái)進(jìn)行告警,并通過(guò)預(yù)先設(shè)置好的郵件、短信等方式發(fā)送給管理員,管理員根據(jù)情況進(jìn)行人工處置。人工處置操作包括手動(dòng)隔離、替換硬盤(pán)等。
(2)嚴(yán)重慢盤(pán)
在對(duì)端副本正常時(shí),將該硬盤(pán)從系統(tǒng)中隔離。新數(shù)據(jù)多副本寫(xiě)入時(shí),寫(xiě)入到其他健康的硬盤(pán)上,業(yè)務(wù)讀取該盤(pán)數(shù)據(jù)時(shí),主動(dòng)切換到另一副本讀取。同時(shí)觸發(fā)數(shù)據(jù)重建,保障數(shù)據(jù)的安全性。
在對(duì)端副本業(yè)務(wù)異常時(shí),優(yōu)先保障業(yè)務(wù)運(yùn)行,超融合會(huì)在WEB控制臺(tái)進(jìn)行告警,并通過(guò)預(yù)先設(shè)置好的郵件、短信等方式發(fā)送給管理員,管理員根據(jù)情況進(jìn)行人工處置。
(3)卡盤(pán)
在對(duì)端副本正常時(shí),將該硬盤(pán)從系統(tǒng)中隔離,新數(shù)據(jù)多副本寫(xiě)入時(shí),寫(xiě)入到其他健康的硬盤(pán)上,業(yè)務(wù)讀取該盤(pán)數(shù)據(jù)時(shí),主動(dòng)切換到另一副本讀取,同時(shí)觸發(fā)數(shù)據(jù)重建,保障數(shù)據(jù)的安全性。
在對(duì)端副本異常時(shí),第一次出現(xiàn)卡慢場(chǎng)景優(yōu)先保障業(yè)務(wù)運(yùn)行。超融合會(huì)在WEB控制臺(tái)進(jìn)行告警,并通過(guò)預(yù)先設(shè)置好的郵件、短信等方式發(fā)送給管理員,管理員根據(jù)情況進(jìn)行人工處置。1小時(shí)內(nèi)出現(xiàn)3次硬盤(pán)卡慢時(shí)保障數(shù)據(jù)安全,將該硬盤(pán)從系統(tǒng)中隔離。
綜合實(shí)際測(cè)試效果,在未開(kāi)啟卡慢盤(pán)檢測(cè)及處置功能前,在硬盤(pán)出現(xiàn)卡慢時(shí),IO多次出現(xiàn)斷崖式下降,業(yè)務(wù)持續(xù)受到影響。開(kāi)啟功能后超融合在硬盤(pán)卡慢亞健康狀態(tài)出現(xiàn)后能夠在1分鐘內(nèi)檢測(cè)到并進(jìn)行隔離處置,隔離后業(yè)務(wù)IO恢復(fù)穩(wěn)定,整個(gè)過(guò)程虛擬機(jī)不出現(xiàn)HA,降低了卡慢盤(pán)對(duì)業(yè)務(wù)性能的影響。根據(jù)深信服統(tǒng)計(jì),2021年卡慢盤(pán)引發(fā)的業(yè)務(wù)中斷問(wèn)題數(shù)下降60%。
以上就是本期《信服云黑板報(bào)》的分享,關(guān)注“深信服科技”微信公眾號(hào),可以持續(xù)獲取更多技術(shù)干貨內(nèi)容哦!
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )