gogo中日韩人体大胆高清专业,国产香蕉97碰碰视频

科技云報(bào)道原創(chuàng)。

在過(guò)去一兩年里，以GPT和Diffusion model為代表的大語(yǔ)言模型和生成式AI，將人們對(duì)AI的期待推向了一個(gè)新高峰，并吸引了千行百業(yè)嘗試在業(yè)務(wù)中利用大模型。

國(guó)內(nèi)各家大廠在大模型領(lǐng)域展開(kāi)了激烈的軍備競(jìng)賽，如：文心大模型、通義千問(wèn)、混元大模型、盤(pán)古大模型等等，這些超大規(guī)模的模型訓(xùn)練參數(shù)都在千億以上，有的甚至超過(guò)萬(wàn)億級(jí)。

即便訓(xùn)練一次千億參數(shù)量模型的成本可能就高達(dá)數(shù)百萬(wàn)美元，但大廠們依然拼盡全力，除此之外也有很多行業(yè)企業(yè)希望擁有自己的專(zhuān)屬大模型。

對(duì)于企業(yè)來(lái)說(shuō)，要想在大模型的競(jìng)爭(zhēng)中勝出，就必須充分利用算力，并且構(gòu)建高效穩(wěn)定的服務(wù)運(yùn)行環(huán)境，這就對(duì)IT基礎(chǔ)設(shè)施能力提出了更高的要求。

而云原生正是比拼的重要一環(huán)。云原生技術(shù)的自動(dòng)化部署和管理、彈性伸縮等功能，能夠有效提高大模型應(yīng)用效率并降低成本。

據(jù)Gartner預(yù)測(cè)，2023年70%的AI應(yīng)用會(huì)基于容器和Serverless技術(shù)開(kāi)發(fā)。在實(shí)際生產(chǎn)中，越來(lái)越多的AI業(yè)務(wù)，比如自動(dòng)駕駛、NLP等，也正在轉(zhuǎn)向容器化部署。

那么，云原生是如何幫助大模型降本增效，在這個(gè)過(guò)程中又遇到了哪些挑戰(zhàn)？

云原生成為大模型的標(biāo)配

近年來(lái)，容器和Kubernetes已經(jīng)成為越來(lái)越多AI應(yīng)用首選的運(yùn)行環(huán)境和平臺(tái)。

一方面，Kubernetes幫助用戶標(biāo)準(zhǔn)化異構(gòu)資源和運(yùn)行時(shí)環(huán)境、簡(jiǎn)化運(yùn)維流程；另一方面，AI這種重度依賴GPU的場(chǎng)景可以利用K8s的彈性優(yōu)勢(shì)節(jié)省資源成本。

隨著大模型浪潮的到來(lái)，以云原生環(huán)境運(yùn)行AI應(yīng)用正在變成一種事實(shí)標(biāo)準(zhǔn)。

彈性伸縮與資源管理

大模型訓(xùn)練往往需要大量的計(jì)算資源，而云原生環(huán)境通過(guò)容器化和編排工具可以實(shí)現(xiàn)資源的彈性調(diào)度與自動(dòng)擴(kuò)縮容。

這意味著在大模型訓(xùn)練過(guò)程中可以迅速獲取所需資源，并在任務(wù)完成后釋放資源，降低閑置成本。

分布式計(jì)算支持

云原生架構(gòu)天然支持分布式系統(tǒng)，大模型訓(xùn)練過(guò)程中的并行計(jì)算需求可以通過(guò)云上的分布式集群輕松實(shí)現(xiàn)，從而加速模型收斂速度。

微服務(wù)架構(gòu)與模塊化設(shè)計(jì)

大模型推理服務(wù)可以被分解為多個(gè)微服務(wù)，比如預(yù)處理服務(wù)、模型加載服務(wù)和后處理服務(wù)等，這些服務(wù)能夠在云原生環(huán)境中獨(dú)立部署、升級(jí)和擴(kuò)展，提高系統(tǒng)的可維護(hù)性和迭代效率。

持續(xù)集成/持續(xù)部署（CI/CD）

云原生理念強(qiáng)調(diào)快速迭代和自動(dòng)化運(yùn)維，借助CI/CD流程，大模型的研發(fā)團(tuán)隊(duì)能夠以更高效的方式構(gòu)建、測(cè)試和部署模型版本，確保模型更新的敏捷性。

存儲(chǔ)與數(shù)據(jù)處理

云原生提供了多種數(shù)據(jù)持久化和臨時(shí)存儲(chǔ)解決方案，有助于解決大模型所需的大量數(shù)據(jù)讀取和寫(xiě)入問(wèn)題。

同時(shí)，利用云上大數(shù)據(jù)處理和流式計(jì)算能力可以對(duì)大規(guī)模數(shù)據(jù)進(jìn)行有效預(yù)處理和后處理。

可觀測(cè)性和故障恢復(fù)

在云原生環(huán)境下，監(jiān)控、日志和追蹤功能完善，使得大模型服務(wù)的狀態(tài)更加透明，遇到問(wèn)題時(shí)能更快地定位和修復(fù)，保證服務(wù)高可用性。

總體而言，云原生架構(gòu)的諸多優(yōu)勢(shì)契合了大模型在計(jì)算密集、數(shù)據(jù)驅(qū)動(dòng)、迭代頻繁等方面的需求，能夠?yàn)榇竽Ｐ蛶?lái)成本、性能、效率等多方面的價(jià)值，因而成為大模型發(fā)展的標(biāo)配。

大模型對(duì)云原生能力提出新挑戰(zhàn)

盡管云原生對(duì)于大模型有著天然的優(yōu)勢(shì)，但是面對(duì)LLM、AIGC這樣的新領(lǐng)域，依然對(duì)云原生能力提出了更多挑戰(zhàn)。

在訓(xùn)練階段，大模型對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等基礎(chǔ)架構(gòu)的要求都更高。

規(guī)模上，要訓(xùn)練出具有廣泛知識(shí)和專(zhuān)業(yè)領(lǐng)域理解及推理能力的大語(yǔ)言模型，往往需要高達(dá)萬(wàn)卡級(jí)別的GPU集群和PB級(jí)的數(shù)據(jù)存儲(chǔ)以及TB級(jí)的數(shù)據(jù)吞吐。

此外，高性能網(wǎng)絡(luò)也將達(dá)到單機(jī)800Gbps甚至3.2Tbps的RDMA互聯(lián)。

性能方面，隨著模型體積和參數(shù)量的增長(zhǎng)，單張顯卡已無(wú)法承載完整的模型。因此需要使用多張顯卡進(jìn)行分布式訓(xùn)練，并采用各種混合并行策略進(jìn)行加速。

這些策略包括數(shù)據(jù)并行、模型并行、流水線并行以及針對(duì)語(yǔ)言模型的序列并行等，以及各種復(fù)雜的組合策略。

在推理階段，大模型需要提供高效且穩(wěn)定的推理服務(wù)，這需要不斷優(yōu)化其性能，并確保服務(wù)質(zhì)量（QoS）得到保證。

在此基礎(chǔ)上，最重要的目標(biāo)是提高資源效率和工程效率。一方面，持續(xù)提高資源利用效率，并通過(guò)彈性擴(kuò)展資源規(guī)模，以應(yīng)對(duì)突發(fā)的計(jì)算需求。

另一方面，要最優(yōu)化算法人員的工作效率，提高模型迭代速度和質(zhì)量。

由此可見(jiàn)，大模型對(duì)云原生技術(shù)提出了新的能力要求：

一是，統(tǒng)一管理異構(gòu)資源，提升資源利用率。

從異構(gòu)資源管理的角度，對(duì)IaaS云服務(wù)或者IDC內(nèi)的各種異構(gòu)計(jì)算（如 CPU，GPU，NPU，VPU，F(xiàn)PGA，ASIC）、存儲(chǔ)（OSS，NAS， CPFS，HDFS）、網(wǎng)絡(luò)（TCP， RDMA）資源進(jìn)行抽象，統(tǒng)一管理、運(yùn)維和分配，通過(guò)彈性和軟硬協(xié)同優(yōu)化，持續(xù)提升資源利用率。

在運(yùn)維過(guò)程中，需要多維度的異構(gòu)資源可觀測(cè)性，包括監(jiān)控、健康檢查、告警、自愈等自動(dòng)化運(yùn)維能力。

對(duì)于寶貴的計(jì)算資源，如GPU和NPU等加速器，需要通過(guò)各種調(diào)度、隔離和共享的方法，最大限度地提高其利用率。

在此過(guò)程中，還需要持續(xù)利用云資源的彈性特征，持續(xù)提高資源的交付和使用效率。

二是，通過(guò)統(tǒng)一工作流和調(diào)度，實(shí)現(xiàn) AI、大數(shù)據(jù)等多類(lèi)復(fù)雜任務(wù)的高效管理。

對(duì)于大規(guī)模分布式AI任務(wù)，需要提供豐富的任務(wù)調(diào)度策略，如Gang scheduling、Capacity scheduling、Topology aware scheduling、優(yōu)先級(jí)隊(duì)列等，并使用工作流或數(shù)據(jù)流的方式串聯(lián)起整個(gè)任務(wù)流水線。

同時(shí)，需兼容Tensorflow，Pytorch，Horovod，ONNX，Spark，F(xiàn)link等各種計(jì)算引擎和運(yùn)行時(shí)，統(tǒng)一運(yùn)行各類(lèi)異構(gòu)工作負(fù)載流程，統(tǒng)一管理作業(yè)生命周期，統(tǒng)一調(diào)度任務(wù)工作流，保證任務(wù)規(guī)模和性能。

一方面不斷提升運(yùn)行任務(wù)的性價(jià)比，另一方面持續(xù)改善開(kāi)發(fā)運(yùn)維體驗(yàn)和工程效率。

此外，在計(jì)算框架與算法層面適配資源彈性能力，提供彈性訓(xùn)練和彈性推理服務(wù)，優(yōu)化任務(wù)整體運(yùn)行成本。

除了計(jì)算任務(wù)優(yōu)化，還應(yīng)關(guān)注數(shù)據(jù)使用效率的優(yōu)化。為此，需要統(tǒng)一的數(shù)據(jù)集管理、模型管理和訪問(wèn)性能優(yōu)化等功能，并通過(guò)標(biāo)準(zhǔn)API和開(kāi)放式架構(gòu)使其易于被業(yè)務(wù)應(yīng)用程序集成。

對(duì)于大模型還有一個(gè)主要能力，就是能夠在分鐘級(jí)內(nèi)準(zhǔn)備好開(kāi)發(fā)環(huán)境和集群測(cè)試環(huán)境，幫助算法工程師開(kāi)始執(zhí)行深度學(xué)習(xí)任務(wù)。

把端到端的 AI 生產(chǎn)過(guò)程通過(guò)相同的編程模型、運(yùn)維方式進(jìn)行交付。

結(jié)語(yǔ)

隨著大模型等AI技術(shù)的不斷發(fā)展，云原生技術(shù)將面臨一些新的挑戰(zhàn)和需求。例如，如何快速適應(yīng)新的開(kāi)源大模型訓(xùn)練方法，以及如何提高大模型推理性能并確保其質(zhì)量和穩(wěn)定性。

同時(shí)，也需要關(guān)注一些前沿技術(shù)和創(chuàng)新能力，通過(guò)標(biāo)準(zhǔn)化和可編程的方式來(lái)集成，不斷迭代業(yè)務(wù)應(yīng)用，形成 AI+ 或 LLM+ 的新應(yīng)用開(kāi)發(fā)模式和編程模型。

但無(wú)論技術(shù)如何發(fā)展，為大模型提供快速、準(zhǔn)確、穩(wěn)定且成本可控的服務(wù)，保證大模型訓(xùn)練和推理的成本、性能和效率，都將成為企業(yè)為其價(jià)值買(mǎi)單的根本。

【關(guān)于科技云報(bào)道】

專(zhuān)注于原創(chuàng)的企業(yè)級(jí)內(nèi)容行家——科技云報(bào)道。成立于2015年，是前沿企業(yè)級(jí)IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可，可信云、全球云計(jì)算大會(huì)官方指定傳播媒體之一。深入原創(chuàng)報(bào)道云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

云原生是大模型“降本增效”的解藥嗎？

下一篇

云原生是大模型“降本增效”的解藥嗎？

下一篇

云原生是大模型“降本增效”的解藥嗎？