高性能數據分析時代,HPDA平臺需要什么樣的數據存儲?

在海量基因數據中進行全基因數據分析,了解各種疾病與DNA之間的隱秘聯(lián)系;對海洋氣候進行預測,利用強大的數據分析性能,實現分鐘級的數據刷新、精準預測海洋氣候;利用高速相機模擬人腦上億個神經元之間聯(lián)接與工作,對產生的海量數據進行實時分析,探索人腦工作機制……

如今,數據正在迅速改變科研領域,推動傳統(tǒng)科研模式加速向基于“數據密集型科學”的科研新范式轉變。隨著數據成為生產要素,數據采集、數據存儲等相關技術與方案不斷創(chuàng)新,越來越多科研人員感受到科研新范式所帶來的巨大價值。

因此,近年來,無論是政府超算,還是科研高校均在加速構建面向多元算力和海量數據的新型HPDA(High Performance Data Analytics,高性能數據分析)平臺,為不同學科提供面向HPDA應用負載的數據基礎設施成為當務之急。

在今年第十八屆全國高性能計算學術年會(CCF HPC China 2022)上,面向HPDA場景的數據存儲相關話題再次引燃會場。其中,華為DataRobot HPDA存儲集群解決方案更是獲得廣泛關注。華為DataRobot HPDA存儲集群解決方案不僅獲得官方最佳解決方案獎,更憑借應用加速、數據跨域管理和全棧敏捷等方面的出色創(chuàng)新為HPDA場景下的數據存儲解決方案打開了新思路與新局面。

HPDA與HPC大不同

在傳統(tǒng)HPC時代,基于計算科學的科研范式往往是先提出可行理論,再搜集數據,之后通過計算仿真進行驗證,大多以數值計算為主;而如今基于“數據密集型科學”的科研新范式,則更多與大數據知識挖掘及AI訓練推理技術結合,通過計算與分析獲得新知識和新發(fā)現。科研領域正式進入到HPDA高性能數據分析時代。

科研范式的轉變,意味著對于底層數據基礎設施的需求將發(fā)生根本性改變。數據密集型的科研應用負載,其數據往往具有不可重復性、高度不確定性、高維、計算高度復雜等特征。加上當前科研領域對于數據流動的需求愈發(fā)強烈,使得科研領域的HPDA面臨著諸多挑戰(zhàn):

其一、混合計算需要更加牢固且強大的、支持HPDA場景的可靠存儲底座。眾所周知,無論是高??蒲袡C構的智算中心,還是輻射區(qū)域的政府超算中心,均需要同時跑不同類型的科研應用負載。這些工作負載對于數據存儲的容量、性能、帶寬、管理、訪問協(xié)議方面的要求各不相同,因此就需要強大的HPDA數據存儲同時支撐起這些混合工作負載,并減少數據量膨脹以及數據遷移;

其二、很多HPDA工作負載對于數據實時處理性能要求很高,例如在高能物理分析、天氣預測、藥物研究以及電信欺詐等場景中,往往會面對大規(guī)模網絡并發(fā)數據處理需求,需要短時間內對海量數據進行快速分析與處理,這對于HPDA場景下存儲系統(tǒng)的全棧協(xié)同、高效處理能力提出了極高要求;

其三、數據流動與共享是整個社會經濟發(fā)展的大勢所趨,在科研領域也不例外。尤其是在東數西算、東數西存等戰(zhàn)略的大背景下,跨地域、跨集群的數據共享與流動勢在必行,為了面對海量數據處理、數據分散、數據多元化、安全可信等難題,企業(yè)急需全新的HPDA數據存儲解決方案來支撐。

因此,業(yè)界普遍意識到,需要打造支持混合負載、多協(xié)議互通且具備超高密設計、面向HPDA場景的存儲集群解決方案,來應對HPDA工作負載愈發(fā)嚴苛的挑戰(zhàn)。其中,華為率先推出了業(yè)界首個數據加速引擎加持的HPDA全棧方案—華為DataRobot HPDA存儲集群解決方案,真正為HPDA存儲打開了全新的創(chuàng)新思路和應用階段。

華為DataRobot存儲集群解決方案帶來了什么

事實上,HPDA工作負載改變的,不僅僅是存儲系統(tǒng)本身,更是對于數據存儲的設計、使用模式和創(chuàng)新能力的一次重塑。

與其他傳統(tǒng)存儲方案不同,華為DataRobot HPDA存儲集群解決方案是業(yè)界首個數據加速引擎加持的HPDA全棧方案,其真正在數據應用加速、數據跨域管理、綠色節(jié)能和全棧敏捷設計四大方面開創(chuàng)了先河,引領HPDA存儲創(chuàng)新。

首先是出色的數據應用加速:華為的DataTurbo應用加速引擎,真正讓華為DataRobot HPDA存儲集群解決方案滿足各種科研工作負載的極致性能需求。

具體來看,DataTurbo是華為DataRobot HPDA存儲集群解決方案中聯(lián)接應用與存儲的數據加速引擎組件,由應用加速引擎和全局數據管理組件組成。

其中,應用加速引擎內置了自研網卡芯片和HPC、大數據加速套件,具備I/O聚合算法、統(tǒng)一元數據網關、芯片I/O卸載等黑科技,可實現應用處理效率數倍提升,同時結合OceanStor存儲的全局共享存儲能力,在面向E級超算場景下,可實現萬級計算客戶端并發(fā)訪問,且單集群達到50TB/s帶寬,10億IOPS能力,性能領先業(yè)界30%。

除了應用加速引擎之外,DataTurbo的全局數據管理組件則讓HPDA的跨域數據管理更加簡單與高效,真正有效推動了數據的流動與共享,為科研領域的數據分析與價值實現帶來了更多可能。

全局數據管理組件可以基于統(tǒng)一元數據,構建全局命名空間,實現跨數據統(tǒng)一訪問;支持智能的全文檢索,打破地域限制,讓數據看得見;并可通過智能調度策略,根據數據溫熱冷分級,可實現3倍數據調度效率提升。

其次,科研機構的超算中心/智算中心通常規(guī)模龐大、設備眾多、能耗成本高昂,隨著國家碳達峰/中和戰(zhàn)略目標的推出,超算中心/智算中心走向綠色節(jié)能的發(fā)展之路是大勢所趨。

為此,華為DataRobot HPDA存儲集群解決方案在存儲系統(tǒng)設計上,通過熱溫冷數據智能分級設計,實現三個層級的數據自動流動:本地集群內實現SSD、HDD主存儲、藍光存儲間的數據分級;跨集群數據遠程自動分級到其他數據中心;本地數據中心到公有云的數據分級流動。通過將數據放置在最合適的位置,實現跨數據中心層面的整體節(jié)能。

值得一提的是,基于華為DataRobot HPDA存儲集群的自研多模型數據合并壓縮技術,可以將數據在本地壓縮后再傳輸,極大的節(jié)省傳輸帶寬和存儲空間,最終實現十年整體TCO降低70%。

面對傳統(tǒng)風冷機房的能耗問題與高密度支持問題,華為采用的風液冷機柜,創(chuàng)新的硬件設計讓整柜功率密度達到20KW+,PUE≤1.25,功率密度提升1.5倍。DataRobot HPDA存儲集群所提供系列高密分布式存儲配置中,OceanStor高密大容量產品,在5U高的標準設備空間內可以容納120塊HDD,單位空間密度比其他同類產品高出20%。

第四,如今大數據、AI等技術的融入,使得很多科研機構的數據中心平臺都面臨著多元異構算力的環(huán)境,這對于HPDA存儲產品的設計與交付提出了極大挑戰(zhàn)。為此,華為DataRobot HPDA存儲集群方案采取全棧敏捷設計,提供了包含基礎柜、計算柜和存儲柜在內的三類模塊化硬件組合,基于最佳實踐的典配機柜設計,用戶可以根據不同規(guī)模業(yè)務場景可按需選擇部署、靈活擴展。同時具備一站式交付能力,可幫助用戶業(yè)務上線時間縮短50%。

此外,華為DataRobot HPDA存儲集群解決方案還提供全棧統(tǒng)一運維平臺,可以對多個數據中心的存儲、計算、網絡、容器等資源統(tǒng)一管理,包括從資源規(guī)劃、端到端資源發(fā)放、設備運維、到資源優(yōu)化全生命周期管理,同時提供AI智能運維,實現5倍的管理效率提升和分鐘級問題定界,極大降低運維問題,讓科研機構可以將更多精力投入到科學研究之中。

生態(tài)加持,華為DataRobot行穩(wěn)致遠

如今,基于“數據密集型科學”的科研新范式正在深刻影響著各大科研機構。在高性能數據分析時代,僅憑借數據基礎設施的創(chuàng)新將不再滿足要求,需要從底層數據存儲、上層應用,到整體方案設計進行全方面的創(chuàng)新。

顯然,華為數據存儲率先意識到HPDA領域的這種需求變革,并且在確保產品優(yōu)秀的基礎上,大力推動生態(tài)的力量,聯(lián)合科研領域的聯(lián)科/賽樂/人和未來等多家合作伙伴,在DataRobot HPDA存儲集群解決方案中進行應用調優(yōu)和預集成,真正讓客戶開箱即用。

總體來看,基于“數據密集型科學”的科研新范式已是大勢所趨。隨著大數據、人工智能等技術進一步融合到科學研究的日常工作之中, HPDA存儲集群解決方案必將被進一步普及。毫無疑問,華為DataRobot HPDA存儲集群解決方案的出現,為市場樹立了新標桿,有望持續(xù)幫助更多用戶構建起領先的數據基礎設施,推動科研新范式步入發(fā)展的快車道。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2022-12-23
高性能數據分析時代,HPDA平臺需要什么樣的數據存儲?
在海量基因數據中進行全基因數據分析,了解各種疾病與DNA之間的隱秘聯(lián)系;對海洋氣候進行預測,利用強大的數據分析性能,實現分鐘級的數據...

長按掃碼 閱讀全文