作為人工智能“三駕馬車”之一,高效智能的計算能力對 AI 技術的演進至關重要。如何針對不同 AI 數(shù)據(jù)場景下,實現(xiàn)計算效率的提升,是各大計算技術研究機構、云廠商以及相關開源社區(qū)的研究熱點。
12 月 8 日-9 日,第 2 屆數(shù)據(jù)編排峰會(DATA ORCHESTRATION SUMMIT 2020)將在線上召開。在為期兩天的開源社區(qū)會議中,大會將圍繞如何基于最新的開源技術,如Alluxio、Apache Spark、Apache Airflow、Presto、TensorFlow、Kubernetes 等,構建云原生或混合云數(shù)據(jù)和 AI 平臺這一話題展開討論,并重點關注其中關鍵性數(shù)據(jù)工程方面的挑戰(zhàn)和解決方案。
本次峰會的演講嘉賓邀請到諸多云、數(shù)據(jù)和 AI/ML 等領域富有遠見的專家學者,包括來自加州伯克利大學的 Apache Spark 創(chuàng)始人 Ion Stoica 教授,英特爾 CTO Parviz Peiravi 以及 Alluxio 創(chuàng)始人李浩源博士。同時,來自云知聲、阿里巴巴、Comcast、Electronic Arts、Facebook、Google,京東和騰訊等公司的技術專家也將先后帶來精彩的技術報告,分享業(yè)界領先的數(shù)據(jù)架構、現(xiàn)實案例、現(xiàn)場演示以及從業(yè)人員最佳實踐。
云知聲很早就開始布局建設業(yè)界領先的 GPU/CPU 異構 Atlas 計算平臺和分布式文件存儲系統(tǒng),該計算集群可為 AI 計算提供高性能計算和海量數(shù)據(jù)的存儲訪問能力,在公司向 AI 多領域技術橫向擴展和縱向迭代中發(fā)揮了至關重要的作用。
本次峰會,云知聲作為國內唯一受邀 AI 公司將帶來名為“Speeding Up In Atlas Deep Learning Platform with Alluxio+Fluid”的分享,系統(tǒng)闡釋云知聲在人工智能基礎建設與云原生原創(chuàng)技術領域的創(chuàng)新發(fā)展路徑。
本次分享中,針對目前深度學習訓練平臺非結構數(shù)據(jù)訓練過程中 I/O 瓶頸問題,云知聲提出在存儲層和計算層引入 Alluxio 緩存層的解決方案,技術團隊通過和 Alluxio、阿里巴巴以及南京大學合作開源項目 Fluid 對Alluxio 緩存引擎進行統(tǒng)一的編排管理。架構圖如下圖所示:
在新架構的加持下,三種典型 AI 非結構化數(shù)據(jù)類型:大文件、中等文件和海量小文件均取得大幅的加速效果。針對海量小文件語音降噪任務、以及大文件 OCR 任務加速效果如下。其中,在海量小文件訓練場景中,讀取緩存相對于直接讀取底層存儲平均增速 10 倍。
在大文件場景,在訓練任務早期階段,讀取緩存相對于直接讀取底層存儲平均有 30 倍的加速效果,當數(shù)據(jù)集全部加載到內存時,兩者速度基本一致。
在加速訓練的同時,新架構可以大幅度減少 I/O 帶寬的占用并進一步提升 GPU 使用率,針對海量小文件降噪任務、以及大文件 OCR 任務 I/O 占用及 GPU 使用率如下:
在海量小文件訓練場景中,讀取緩存相對于直接讀取底層存儲計算節(jié)點 I/O 由 230Mb/s 下降到 0Mb/s,表明海量小文件訓練前已全部加載到緩存中,訓練過程中無需占用 I/O;GPU 平均使用率由 82.76% 提升到90.24%,表明消除 I/O 瓶頸可以提高海量小文件訓練資源使用效率。
在大文件訓練場景中,提前預熱相對于讀取底層存儲到緩存,計算節(jié)點 I/O 由 1300Mb/s 下降到 0Mb/s,表明海量小文件訓練前已全部加載到緩存中,無需占用I/O;讀取緩存相對于直接讀取底層存儲計算節(jié)點 GPU平均使用率由 69.59% 提升到 91.46%,表明消除 I/O 瓶頸可以提高大文件訓練任務資源使用效率。
針對不同的數(shù)據(jù)場景,基于 Fluid 和 Alluxio 緩存加速引擎已經(jīng)在 Atlas 計算平臺進行充分驗證。不但緩解了集群 I/O 壓力,而且極大的提高了模型訓練的速度以及 GPU 使用效率,為實現(xiàn) AI 算法的快速驗證和迭代奠定計算基礎。
云知聲在實現(xiàn)內部計算平臺技術迭代的同時,也積極參與和擁抱開源社區(qū),是 KubeFlow、Istio、Fluid 社區(qū)的積極關注和貢獻者,為開源社區(qū)技術進步貢獻自己的力量。
截止 2020 年,Atlas 計算平臺已經(jīng)超過一億億次每秒的浮點計算能力,為在人工智能新領域的拓展奠定了強大的計算資源基礎。通過協(xié)同利用 AI 底層計算平臺資源,也支撐起云知聲從語音識別、語義理解到機器翻譯、計算機視覺等多維人工智能技術領域的持續(xù)快速突破。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )