再創(chuàng)佳績!阿里云4篇論文入選計算機體系結(jié)構(gòu)頂級會議FAST 2023

2月21日至23日,計算機體系結(jié)構(gòu)頂會USENIX FAST 2023在美國圣克拉拉召開,阿里云4篇論文被頂會收錄,涉及分布式存儲架構(gòu)、云原生存儲、用戶態(tài)存儲引擎等多個領(lǐng)域。作為中國科技公司的代表,阿里云已屢次在FAST上斬獲佳績,其中《Perseus:A Fail-Slow Detection Framework for Cloud Storage Systems》一文還斬獲了大會最佳論文獎,這也是中國企業(yè)首次獲此殊榮。

阿里云與上海交大合作論文獲大會最佳論文獎.jpg

阿里云與上海交大合作論文獲大會最佳論文獎

FAST(Conference on File and Storage Technologies)創(chuàng)辦于2002年,是由美國高等計算系統(tǒng)協(xié)會(USENIX)和美國計算機學(xué)會操作系統(tǒng)專業(yè)組織(ACM SIGOPS)聯(lián)合組織的聚焦存儲領(lǐng)域的頂級國際會議,代表了計算機存儲領(lǐng)域的國際最高水平。創(chuàng)辦二十多年來,F(xiàn)AST推動了如軟硬件結(jié)合、RAID、閃存文件系統(tǒng)、非易失內(nèi)存技術(shù)和分布式存儲等多項存儲相關(guān)技術(shù)的發(fā)展。

本次阿里云入選的 4 篇論文主要是圍繞飛天云計算操作系統(tǒng)核心組件之一的飛天盤古分布式文件存儲系統(tǒng),深入地描述了過去幾年在多個領(lǐng)域的創(chuàng)新以及為云存儲產(chǎn)品提升的競爭力。使用通用的服務(wù)器和磁盤介質(zhì),在超大規(guī)模下解決數(shù)據(jù)不丟不錯和高可用的難題,讓存儲更加穩(wěn)定可靠,擁有更大的容量和更高的性能,可承載不同的應(yīng)用負載, 覆蓋低延遲、高吞吐、高并發(fā)等多種復(fù)雜場景。

阿里云存儲資深專家儲道介紹阿里云盤古分布式存儲系統(tǒng)論文.jpg

阿里云存儲資深專家儲道介紹阿里云盤古分布式存儲系統(tǒng)論文

具體來說,阿里云在《More Than Capacity: Performance-oriented Evolution of Pangu in Alibaba》一文中介紹了阿里云自研的盤古分布式文件存儲的新一代 2.0 系統(tǒng)的創(chuàng)新和演進。通過基于介質(zhì)優(yōu)化的存儲引擎、高性能存儲網(wǎng)絡(luò)、全分布式元數(shù)據(jù)的管理、長尾延遲優(yōu)化等技術(shù),極致釋放硬件的能力,利用 NVMe SSD和 RDMA 網(wǎng)絡(luò)的低延遲高帶寬性能,降低軟件系統(tǒng)的開銷,提高性能的穩(wěn)定性。基于盤古 2.0,阿里云實現(xiàn)了百微秒級平均延遲、毫秒級長尾延遲,以及單存儲節(jié)點打滿200Gbps網(wǎng)絡(luò)的IOPS處理能力,有力支撐數(shù)據(jù)庫、搜索和推薦等眾多性能敏感型業(yè)務(wù)。

在《Perseus: A Fail-Slow Detection Framework for Cloud Storage Systems》一文中,阿里云與上海交通大學(xué)共同提出了一種精確的慢盤檢測框架Perseus,可將節(jié)點P9999長尾延遲平均降低33%-64%,保證業(yè)務(wù)平穩(wěn)運行。借助 Perseus 對慢盤檢測的主動性和精確性,不僅提供了高性能高可靠的存儲,也保障了性能的穩(wěn)定性,極大減少了性能的抖動,為客戶提供了可預(yù)期的平滑的服務(wù)質(zhì)量保障。本文因“其在理論研究上的創(chuàng)新性和實際落地應(yīng)用的巨大價值”,被大會評為 FAST 2023 的最佳論文。該項研究由阿里巴巴創(chuàng)新研究計劃(AIR)支持,旨在促進計算機科學(xué)及相關(guān)領(lǐng)域的前沿研究,加速研究成果的應(yīng)用落地。

阿里云存儲專家答案介紹SMRStore新存儲引擎論文.jpg

阿里云存儲專家答案介紹SMRStore新存儲引擎論文

在名為《SMRSTORE: A Storage Engine for Cloud Object Storage on HM-SMR Drives》論文中,阿里云介紹了疊瓦式磁盤HM-SMR的高性能存儲引擎——SMRStore,通過數(shù)據(jù)冷熱分離、端到端協(xié)同設(shè)計、流量打散等技術(shù),大幅降低SMR磁盤上的GC開銷,提供不亞于傳統(tǒng)CMR磁盤的性能?;?SMRStore 存儲引擎的對象存儲 OSS,標準和低頻類型的存儲規(guī)格規(guī)?;褂?SMR 磁盤,保障性能和穩(wěn)定性的同時,降低了存儲成本。

面向云原生大規(guī)模分布式存儲的需求,阿里云在《Fisc: A Large-scale Cloud-native-oriented File System 》論文中提到了面向云原生的大規(guī)模文件系統(tǒng)Fisc,通過文件系統(tǒng)客戶端的硬件卸載技術(shù)高效支持多容器的高并發(fā)訪問,降低容器CPU和內(nèi)存的消耗,節(jié)約 20% 的資源;同時首次提出基于CIPU軟硬件協(xié)同的分布式存儲應(yīng)用層網(wǎng)關(guān),將大數(shù)據(jù)計算、AI訓(xùn)練等業(yè)務(wù)的存儲訪問平均延遲降低到百微秒級別,P999延遲優(yōu)化到毫秒級別,展示了從 IO 虛擬化、多租戶隔離、高性能網(wǎng)絡(luò)、和高性能存儲系統(tǒng)的端到端的全棧優(yōu)化技術(shù)。

阿里云存儲團隊亮相USENIX FAST 2023.jpg

阿里云存儲團隊亮相USENIX FAST 2023

此外,盤古在分布式數(shù)據(jù)冗余算法方面也進行了持續(xù)的創(chuàng)新,支持跨數(shù)據(jù)中心、跨地域的多數(shù)據(jù)中心容災(zāi)策略,數(shù)據(jù)可靠性達到12個9,可用性高達5個9。在高性能存儲網(wǎng)絡(luò)方面也積累了一系列創(chuàng)新成果,自研的高性能RDMA存儲網(wǎng)絡(luò)(SIGCOMM 2022),HPCC流控算法(SIGCOMM 2019),RDMA網(wǎng)絡(luò)的大規(guī)模實踐和優(yōu)化(NSDI 2021),引領(lǐng)了云存儲進入微秒延遲時代。

今天的阿里云盤古分布式存儲已經(jīng)廣泛部署在阿里云全球近百個可用區(qū),通過塊存儲EBS、對象存儲OSS、文件存儲NAS、文件存儲CPFS、表格存儲Tablestore、日志服務(wù)SLS、網(wǎng)盤與相冊服務(wù)PDS、備份容災(zāi)等服務(wù)云上數(shù)百萬的客戶,覆蓋政企、互聯(lián)網(wǎng)、金融、零售、制造、醫(yī)療等千行百業(yè)。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-02-24
再創(chuàng)佳績!阿里云4篇論文入選計算機體系結(jié)構(gòu)頂級會議FAST 2023
為中國科技公司的代表,阿里云已屢次在FAST上斬獲佳績,其中《Perseus:A Fail-Slow Detection Framework for Cloud Storage Systems》一文還斬獲了大會最佳論文獎,這也是中國企業(yè)首次獲此殊榮。

長按掃碼 閱讀全文