隨著5G/大數(shù)據(jù)/AI發(fā)展,非結構化數(shù)據(jù)爆發(fā)式增長,更加關注TCO和效率提升,大容量 (云) 、大帶寬 (視頻, HPC/AI)、融合存儲(數(shù)據(jù)湖)場景增長迅速,云化時代呼喚新架構數(shù)據(jù)存儲,如果說集中式存儲是火車的話,那么分布式存儲就是是云時代的動車。行業(yè)關鍵客戶云化轉型進入深水區(qū),分布式存儲大勢已來。
分布式存儲從應用開發(fā)測試和備份歸檔場景起步,逐步進入虛擬化/云、大數(shù)據(jù)、HPC/AI等場景,一直以來大家更關注分布式存儲擴展性,性價比,但是新場景對分布式存儲的高性能低時延提出了更高的訴求。
分布式存儲性能提升的天花板效應出現(xiàn)
一直以來,分布式存儲的IO性能和時延受制于傳統(tǒng)機械硬盤的訪問速度。但隨著閃存盤的廣泛采用,分布式存儲的整體性能得到了極大的提高,也為分布式存儲沖擊高價值存儲市場提供了更多的可能性。但是傳統(tǒng)上通過增加存儲節(jié)點的并發(fā)度來提升性能的手段,在全閃存的分布式存儲系統(tǒng)中代價越來越高,隨著節(jié)點的增加帶來的性能提升非常有限,另外是隨著節(jié)點的增多時延會急劇的增加。
傳統(tǒng)網(wǎng)絡的擁塞丟包機制成為幕后黑手
為什么全閃存的分布式存儲隨著節(jié)點的增加性能提升不明顯但是時延會急劇的增加呢?通過一次IO端到端時延的分析發(fā)現(xiàn),隨著閃存介質(zhì)的的時延降低,網(wǎng)絡的時延已經(jīng)成為明顯的短木板。在傳統(tǒng)硬盤時代,90%的時延來自于硬盤訪問時延,網(wǎng)絡時延忽略不計;但是在閃存時代,us級的介質(zhì)訪問時延幾乎可忽略,65%以上時延在網(wǎng)絡中,特別是隨著分布式存儲中,存儲節(jié)點的增加使得網(wǎng)絡的擁塞加劇,帶來了更高的網(wǎng)絡時延。更進一步的分析得出,在網(wǎng)絡的整個時延中,90%的時延來自擁塞導致的網(wǎng)絡交換機內(nèi)部的排隊丟包。存儲節(jié)點數(shù)越多,擁塞越越多導致丟包越嚴重,一旦重傳帶來的時延完全不可接受。
華為AIFabric真正實現(xiàn)0丟包,100%釋放存儲性能
如何構建一個0丟包的網(wǎng)絡成為分布式存儲突破性能天花板必須解決的問題。
我們知道大規(guī)模網(wǎng)絡中流量超過交換機的處理和緩存能力時,基本的以太網(wǎng)處理機制就是丟棄報文。無損網(wǎng)絡的實現(xiàn)雖然包含一系列流量調(diào)度機制和措施,但其核心都在于控制發(fā)送端的發(fā)送速度,從而避免超過交換機處理能力的擁塞形成。
如何根據(jù)交換機當前的擁塞情況精準的控制源端的發(fā)送速度?當前業(yè)界基本的做法是在交換機端口設置隊列報文排隊,一旦超過某一個閾值(臨界水線),則意味著可能發(fā)生擁塞,就向源端反送反壓降速信號,從而對可能發(fā)生的擁塞丟包。因此閾值非常非常關鍵,它影響發(fā)送反壓信號的時機,是網(wǎng)絡中是否發(fā)生擁塞的決定性關鍵因素。如何設置閾值成為無損網(wǎng)絡技術創(chuàng)新的焦點和技術發(fā)展主線,大致可以分為三個階段。
過去:靜態(tài)設置,粗暴反壓
最早的無損以太交換機的基本實現(xiàn)依賴網(wǎng)絡管理員靜態(tài)設置閾值,特別考驗管理員能力,一旦設置的太保守,則可能降速太多,吞吐率很差;設置太激進則無法起到無損的效果。在早期FCoE階段,流量模型相對簡單,基本能夠滿足業(yè)務的訴求。但是隨著當前RoCE流量模型復雜多變,一個靜態(tài)的閾值無法滿足變化的需求,當前這種設置方式正在被拋棄。
現(xiàn)在:動態(tài)調(diào)整,實時反饋
一些領先的網(wǎng)絡廠商,在靜態(tài)設置的基礎上,提出了根據(jù)流量模型的變化實時調(diào)整閾值從而不斷的逼近最優(yōu)值,在吞吐和丟包之間進行平衡,取得了較好的效果,目前已經(jīng)成為領先企業(yè)的主流選擇。
但是,動態(tài)調(diào)整的問題,需要對流量進行實時采集分析,在大型框式設備上實現(xiàn)有一定的難度,另外雖然通過不斷調(diào)整力爭達到最優(yōu)值,調(diào)整過程中與最優(yōu)值還存在差距。
未來:智能預測,精準控制
2019年初,華為發(fā)布了業(yè)界首款面向AI時代的CloudEngine數(shù)據(jù)中心交換機,率先將AI芯片內(nèi)嵌交換機中,獨創(chuàng)iLossless 智能無損交換算法,實現(xiàn)網(wǎng)絡100%吞吐下的真正0丟包與E2E μs級時延。據(jù)測試結果,效果已經(jīng)無限逼近了最優(yōu)值,確保無論多么網(wǎng)絡擁塞,0丟包的基礎上接近100%吞吐,這就是AI Fabric。通過AI Fabric構建的業(yè)界真正實現(xiàn)0丟包的以太網(wǎng),可以將分布式存儲網(wǎng)絡時延持續(xù)的穩(wěn)定在10us以下,揭開存儲的天花板,充分的釋放存儲的性能。
AI Fabric助力華為分布式存儲系統(tǒng)沖擊全球性能之巔
目前AI Fabric已經(jīng)應用到華為最新的OceanStor D系列分布式存儲中,通過AI Fabric可以在同等的條件下,將時延降低15%,助力存儲IOPS性能提升20%以上,沖擊單節(jié)點16.8萬IOPS的新高度。特別是AI Fabric確保通過增加存儲節(jié)點可以接近線性的提升性能,而保持時延基本不變。
以下是實驗室模擬的不同的業(yè)務負載下,分布式存儲時延和性能情況??梢钥吹?,AI Fabric開啟后,時延降低了15%以上,IOPS最高提升了45%。
同時,今年華為云上線了基于OceanStor分布式存儲底座的云盤,目前已經(jīng)成為全球性能最高的云盤,單卷性能突破100萬IOPS,時延控制在75us,這背后,也是AI Fabric在支撐海量數(shù)據(jù)場景的極致低時延。(文/王新)
華為公司簡介
華為是全球領先的ICT(信息與通信)基礎 設施和智能終端提供商,致力于把數(shù)字世界帶入每個人、每個家庭、每個組織,構建萬物互聯(lián)的智能世界。我們在通信網(wǎng)絡、IT、智能終端和云服務等領域為客戶提供有競爭力、安全可信賴的產(chǎn)品、解決方案與服務,助力各行業(yè)數(shù)字化轉型。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )