阿里云AI基礎(chǔ)設(shè)施升級(jí)亮相,模型算力利用率提升超20%

極客網(wǎng)·人工智能(杭州)9月20日,2024云棲大會(huì)現(xiàn)場(chǎng),阿里云全面展示了全新升級(jí)后的AI Infra系列產(chǎn)品及能力。通過全棧優(yōu)化,阿里云打造出一套穩(wěn)定和高效的AI基礎(chǔ)設(shè)施,連續(xù)訓(xùn)練有效時(shí)長大于99%,模型算力利用率提升20%以上。

圖片18.jpg 

AI創(chuàng)新需要新形態(tài)的云基礎(chǔ)設(shè)施?!卑⒗镌聘笨偛?、彈性計(jì)算及存儲(chǔ)產(chǎn)品線負(fù)責(zé)人吳結(jié)生表示,阿里云整合底層的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源,實(shí)現(xiàn)了統(tǒng)一調(diào)度和軟硬一體優(yōu)化,以滿足模型訓(xùn)練和推理的爆發(fā)式AI算力需求。

基于全新的CIPU2.0,阿里云新推出磐久AI服務(wù)器,實(shí)現(xiàn)單機(jī)16卡、顯存1.5T以上,支持Solar RDMA互聯(lián)。磐久AI服務(wù)器采用超鈦金電源實(shí)現(xiàn)97%以上的高能效,并可通過AI算法預(yù)測(cè)GPU故障,準(zhǔn)確率達(dá)92%,保障 AI 算力的性能和穩(wěn)定性。

在存儲(chǔ)方面,阿里云并行文件存儲(chǔ)CPFS實(shí)現(xiàn)端到端全鏈路性能提升,單客戶端吞吐達(dá)25GB/s,高性能數(shù)據(jù)流動(dòng)達(dá)到100GB/s,為AI智算提供指數(shù)級(jí)擴(kuò)展存儲(chǔ)能力。

為AI設(shè)計(jì)的高性能網(wǎng)絡(luò)架構(gòu)HPN7.0,性能和穩(wěn)定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端訓(xùn)練性能提升10%以上。

通過底層計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施的升級(jí),阿里云靈駿集群可提供超大規(guī)模、超強(qiáng)性能的智能算力,萬卡規(guī)模性能線性度超過96%,并行存儲(chǔ)吞吐20TB/s,萬卡規(guī)模下網(wǎng)絡(luò)帶寬利用率超過99%,可支持單集群十萬卡級(jí)別AI算力規(guī)模。

面向AI業(yè)務(wù),阿里云計(jì)算產(chǎn)品也大幅演進(jìn)更新。本次云棲大會(huì)上,容器服務(wù)ACK面向AI實(shí)現(xiàn)重磅升級(jí),大模型應(yīng)用冷啟動(dòng)延遲降低85%,并可提供15000個(gè)超大規(guī)模節(jié)點(diǎn)支持。同時(shí),容器計(jì)算服務(wù)ACS 即將推出 GPU容器算力。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-09-20
阿里云AI基礎(chǔ)設(shè)施升級(jí)亮相,模型算力利用率提升超20%
9月20日,2024云棲大會(huì)現(xiàn)場(chǎng),阿里云全面展示了全新升級(jí)后的AI Infra系列產(chǎn)品及能力。通過全棧優(yōu)化,阿里云打造出一套穩(wěn)定和高效的AI基礎(chǔ)設(shè)施,連續(xù)訓(xùn)練有效時(shí)長大于99%,模型算力利用率提升20%以上。

長按掃碼 閱讀全文