首個云上 AI 原生全??捎^測平臺來了!阿里云可觀測產(chǎn)品全新升級

極客網(wǎng)·人工智能(杭州)9月21日,2024云棲大會,阿里云發(fā)布全新的 AI 原生全棧可觀測平臺,首次實現(xiàn)云上 AI 大模型從訓練到推理再到應用的全鏈路實時觀測、告警與診斷。同時,阿里云可觀測產(chǎn)品家族也實現(xiàn)了全新升級,最常用的日志服務 SLS 相較于自建體系,運維監(jiān)控綜合成本可降低 30% 。

AI 模型的深入發(fā)展,導致了數(shù)據(jù)處理方式與技術架構的深刻變化,相關應用產(chǎn)生的日志、鏈路等可觀測數(shù)據(jù)規(guī)模呈指數(shù)級增長,數(shù)據(jù)結構復雜度也與日俱增,而AI部署的異構環(huán)境、資源及平臺也越發(fā)多元,都給可觀測性的準確、實時、高效與智能化發(fā)展帶來了巨大挑戰(zhàn)。

“以阿里云可觀測產(chǎn)品家族為代表的云原生可觀測工具,正引領著 AI-native 可觀測加速邁向智能化。企業(yè)用戶可以像‘搭積木’一樣輕松、靈活地構建可觀測體系,更高效地管理與觀測 IT 資源與服務,為 AI 創(chuàng)新夯實技術底座。”阿里云云原生應用平臺負責人丁宇表示。

圖片1.jpg 

在2024云棲大會上,日志服務 SLS、云監(jiān)控 CMS、應用實時監(jiān)控服務 ARMS 等阿里云可觀測產(chǎn)品家族實現(xiàn)了重磅更新,面向模型訓練、推理及應用提供全鏈路的可觀測服務。

在模型訓練場景中,云監(jiān)控 CMS 與阿里云 AI 算力產(chǎn)品及平臺深度集成,全面采集計算、存儲、網(wǎng)絡調(diào)度等 AI 基礎設施的可觀測數(shù)據(jù),有效覆蓋數(shù)據(jù)準備、模型開發(fā)、訓練和部署等環(huán)節(jié),確保模型訓練全流程可感知、可觀測,為企業(yè)在 AI 基礎設施的容量管理和可用性保障保駕護航。

在模型推理場景中,可觀測性更多聚焦于推理性能提升、模型輸入輸出的質(zhì)量優(yōu)化及資源消耗的有效管理。應用實時監(jiān)控服務ARMS 推出符合 OpenTelemetry 標準的自研 Python Agent,全面支持通義千問/ LLamaIndex / LangChain 等國內(nèi)外主流框架和模型,采集豐富的指標、鏈路及持續(xù)剖析數(shù)據(jù),借助開箱即用的數(shù)據(jù)可視化大盤與性能診斷功能,確保用戶實時掌握模型運行狀態(tài)及潛在瓶頸,為大模型應用的穩(wěn)定運行與高效運維提供堅實的基礎。

與此同時,日志服務 SLS 與大模型服務平臺百煉深度集成,實現(xiàn)百煉模型 API 層面的可觀測指標全覆蓋,并應用于性能觀測、穩(wěn)定性評估、成本管控、安全合規(guī)等不同應用場景,幫助企業(yè)優(yōu)化資源配置和業(yè)務決策。同時,SLS 核心能力大幅提升,掃描性能提升 10 倍,達到 1GB/s 以上;處理性能提升至 TB 級每分鐘,單 GB 處理成本降低60%。此外,SLS 推出 Elasticsearch 兼容方案,相較于自建其綜合成本可降30% 以上。

據(jù)悉,阿里云已為全球80余個國家的百萬企業(yè)級用戶提供高效便捷、安全穩(wěn)定的可觀測服務。茶百道基于ARMS快速建立運維觀測與響應能力,故障恢復效率提升 50% 以上;傳音借助 Prometheus、Grafana 等可觀測產(chǎn)品,業(yè)務上線效率提高 60%;極氪基于阿里云可觀測產(chǎn)品推行的應急響應機制與 ChatOps 協(xié)同機制,告警平均恢復耗時縮短 50%。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2024-09-21
首個云上 AI 原生全??捎^測平臺來了!阿里云可觀測產(chǎn)品全新升級
9月21日,2024云棲大會,阿里云發(fā)布全新的 AI 原生全??捎^測平臺,首次實現(xiàn)云上 AI 大模型從訓練到推理再到應用的全鏈路實時觀測、告警與診斷。同時,阿里云可觀測產(chǎn)品家族也實現(xiàn)了全新升級,最常用的日志服務 SLS 相較于自建體系,運維監(jiān)控綜合成本可降低 30% 。

長按掃碼 閱讀全文