Alluxio宣布正式發(fā)布數(shù)據(jù)編排平臺(tái)2.7版本 新版本立即可用

11月18日消息,日前,全球首創(chuàng)的開(kāi)源數(shù)據(jù)編排軟件開(kāi)發(fā)商Alluxio宣布正式發(fā)布數(shù)據(jù)編排平臺(tái)2.7版本,新版本立即可用。2.7版本通過(guò)并行數(shù)據(jù)加載、數(shù)據(jù)預(yù)處理和訓(xùn)練工作流,可將機(jī)器學(xué)習(xí)(ML)訓(xùn)練的I/O效率提高8-12倍,從而顯著降低成本。新版本還提供了更強(qiáng)的性能分析,并能更好地支持ApacheHudi和Iceberg等開(kāi)放表格格式,使得對(duì)數(shù)據(jù)湖的訪(fǎng)問(wèn)更易于擴(kuò)展,從而實(shí)現(xiàn)了Presto和Spark的分析提速。

“Alluxio2.7版本進(jìn)一步鞏固了Alluxio在云上人工智能(AI)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面的重要地位,”Alluxio創(chuàng)始人兼首席執(zhí)行官李浩源表示。“隨著數(shù)據(jù)集的增長(zhǎng)以及CPU和GPU計(jì)算能力的增強(qiáng),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)已成為AI主流技術(shù)。這些技術(shù)的興起推動(dòng)了AI的發(fā)展,但也凸顯了數(shù)據(jù)和存儲(chǔ)系統(tǒng)訪(fǎng)問(wèn)中存在的一些挑戰(zhàn)。”

“我們?cè)?000個(gè)節(jié)點(diǎn)的集群中部署了Alluxio,用來(lái)加速我們游戲AI平臺(tái)上模型訓(xùn)練的數(shù)據(jù)預(yù)處理。事實(shí)證明Alluxio穩(wěn)定、可擴(kuò)展且易于管理。”騰訊大數(shù)據(jù)平臺(tái)研發(fā)負(fù)責(zé)人陳鵬表示。“隨著越來(lái)越多的大數(shù)據(jù)和AI應(yīng)用容器化,Alluxio正在成為大型企業(yè)和機(jī)構(gòu)的首選,作為加速數(shù)據(jù)分析和模型訓(xùn)練的中間層。”為了達(dá)到這一目標(biāo),騰訊AlluxioOTeam的毛寶龍團(tuán)隊(duì)與社區(qū)緊密合作,貢獻(xiàn)了一系列重要的功能,包括運(yùn)行期動(dòng)態(tài)更新配置、CephFS存儲(chǔ)支持,修復(fù)了超過(guò)二十個(gè)bug并增加了二十余個(gè)系統(tǒng)指標(biāo)。

“擁有大規(guī)模分析和AI/ML計(jì)算框架的數(shù)據(jù)團(tuán)隊(duì)面臨著越來(lái)越大的壓力,需要讓日益增長(zhǎng)的數(shù)據(jù)源更易于訪(fǎng)問(wèn),同時(shí)確保性能的穩(wěn)定,這需要同時(shí)考慮數(shù)據(jù)本地性、網(wǎng)絡(luò)I/O和成本問(wèn)題,”ESG分析師MikeLeone表示。“企業(yè)和機(jī)構(gòu)希望選用更實(shí)惠和可擴(kuò)展的存儲(chǔ),如云對(duì)象存儲(chǔ),同時(shí)避免昂貴的應(yīng)用程序修改或處理新的性能問(wèn)題。Alluxio通過(guò)抽象存儲(chǔ)細(xì)節(jié)并使數(shù)據(jù)更接近計(jì)算側(cè)來(lái)應(yīng)對(duì)這些挑戰(zhàn),尤其是在混合云和多云環(huán)境中。”

Alluxio2.7版本新增以下功能:

使用Alluxio和NVIDIA的DALI進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練

NVIDIA的數(shù)據(jù)加載庫(kù)(DALI)是一個(gè)常用的Python庫(kù),支持通過(guò)CPU和GPU進(jìn)行數(shù)據(jù)加載和預(yù)處理從而加速深度學(xué)習(xí)。在2.7版本中,Alluxio平臺(tái)進(jìn)行了優(yōu)化,可以與DALI一起部署用于加速基于Python的ML應(yīng)用,其中包括模型訓(xùn)練和推理之前的數(shù)據(jù)加載和預(yù)處理步驟。通過(guò)加速I(mǎi)/O密集型工作并允許并行處理后續(xù)的計(jì)算密集型訓(xùn)練,Alluxio數(shù)據(jù)平臺(tái)上的端到端訓(xùn)練與傳統(tǒng)解決方案相比實(shí)現(xiàn)了顯著的性能提升。對(duì)于海量小文件的訓(xùn)練,與其他解決方案相比,該解決方案可以實(shí)現(xiàn)橫向擴(kuò)展(scale-out)。

大規(guī)模數(shù)據(jù)加載

Alluxio的核心定位是數(shù)據(jù)管理能力,這些能力包括對(duì)分散的數(shù)據(jù)源進(jìn)行統(tǒng)一和實(shí)現(xiàn)緩存。隨著Alluxio越來(lái)越多地用于計(jì)算和存儲(chǔ)跨多個(gè)地理位置的場(chǎng)景,Alluxio自身也在不斷擴(kuò)展。本次更新采用新技術(shù)對(duì)數(shù)據(jù)進(jìn)行批處理,從而增強(qiáng)其可擴(kuò)展性。批處理通過(guò)使用內(nèi)置執(zhí)行引擎處理數(shù)據(jù)加載等任務(wù),減少了管理控制器對(duì)資源的需求,從而減少了系統(tǒng)配置的工作量,降低了成本。

Kubernetes上的易用性

Alluxio現(xiàn)在支持用于Kubernetes的原生容器存儲(chǔ)接口(CSI)驅(qū)動(dòng),以及用于ML的Kubernetesoperator,這使得在容器化環(huán)境中的Alluxio平臺(tái)上操作ML工作流比以往任何時(shí)候都更加容易。Alluxio的卷類(lèi)型現(xiàn)在可用于Kubernetes環(huán)境。敏捷性和易用性是本次新版本關(guān)注的重點(diǎn)。

在Presto上基于分析動(dòng)態(tài)調(diào)整緩存

新版本還推出了智能緩存新功能,名為ShadowCache,能夠動(dòng)態(tài)分析緩存大小對(duì)響應(yīng)速度的影響,從而輕松實(shí)現(xiàn)高性能和低成本之間的平衡。對(duì)于大規(guī)模的多租戶(hù)Presto環(huán)境,此新功能通過(guò)自助管理顯著降低了管理開(kāi)銷(xiāo)。

“在存儲(chǔ)與ML計(jì)算分離的情況下,數(shù)據(jù)平臺(tái)團(tuán)隊(duì)利用Alluxio來(lái)簡(jiǎn)化數(shù)據(jù)預(yù)處理和加載階段,”Alluxio高級(jí)產(chǎn)品經(jīng)理AditMadan表示,“這種簡(jiǎn)化使得SparkML、Tensorflow和PyTorch等框架能最大限度地利用GPU。Alluxio解決方案可在A(yíng)WS、GCP和AzureCloud等多個(gè)云平臺(tái)上使用,現(xiàn)在也可在私有數(shù)據(jù)中心或公有云中的Kubernetes上使用。”

日前,Alluxio宣布完成5000萬(wàn)美元C輪融資,該輪融資由新投資方高瓴創(chuàng)投領(lǐng)投,戰(zhàn)略投資方和原股東a16z,SevenSeasPartners,火山石投資跟投。與此同時(shí),Alluxio宣布將大力拓展國(guó)內(nèi)市場(chǎng)業(yè)務(wù),將北京設(shè)立為中國(guó)區(qū)總部,并成立本地化的研發(fā)團(tuán)隊(duì),以快速響應(yīng)并滿(mǎn)足眾多國(guó)內(nèi)企業(yè)的個(gè)性化需求。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2021-11-18
Alluxio宣布正式發(fā)布數(shù)據(jù)編排平臺(tái)2.7版本 新版本立即可用
【TechWeb】11月18日消息,日前,全球首創(chuàng)的開(kāi)源數(shù)據(jù)編排軟件開(kāi)發(fā)商Alluxio宣布正式發(fā)布數(shù)據(jù)編排平臺(tái)2.7版本,新版本立?

長(zhǎng)按掃碼 閱讀全文