AIGC熱潮涌動(dòng) HashData如何降低大模型應(yīng)用門檻?

當(dāng)前,以ChatGPT為代表的LLM應(yīng)用正在掀起新一輪的AI 浪潮,數(shù)字產(chǎn)業(yè)生態(tài)也迎來前所未有的變局。隨著LLM應(yīng)用的興起,如何低成本地實(shí)現(xiàn)大模型的構(gòu)建和應(yīng)用,成為企業(yè)關(guān)注的重點(diǎn)。

近日,國內(nèi)領(lǐng)先的云原生數(shù)據(jù)倉庫廠商酷克數(shù)據(jù)宣布將推出自主研發(fā)的AI開發(fā)工具HashML,通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)及預(yù)訓(xùn)練大模型等技術(shù),為開發(fā)者提供簡單易用、算法先進(jìn)、性能卓越的AI開發(fā)體驗(yàn)。

HashML是酷克數(shù)據(jù)核心產(chǎn)品HashData云數(shù)倉的擴(kuò)展實(shí)現(xiàn)工具,隨數(shù)倉的部署提供開箱即用的AI能力,讓數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、應(yīng)用開發(fā)者無門檻地使用大模型,大幅降低大模型系統(tǒng)部署的成本和復(fù)雜度,推動(dòng)大模型走向規(guī)模化應(yīng)用。

大模型熱潮涌來 成本問題備受關(guān)注

目前,在大模型領(lǐng)域,國內(nèi)外科技巨頭的競爭已經(jīng)白熱化。亞馬遜、谷歌、百度、華為、阿里等企業(yè)競相涌入,相繼推出各自的大模型服務(wù)。

中國科學(xué)技術(shù)信息研究發(fā)布的《中國人工智能大模型地圖研究報(bào)告》顯示,截至今年5月,國內(nèi)已公開披露的大模型數(shù)量達(dá)到79個(gè)。

然而,對于企業(yè)而言,當(dāng)前要部署和使用大模型,仍面臨著高昂的成本負(fù)擔(dān)。

據(jù)了解,大模型在企業(yè)落地的成本主要包括模型前期微調(diào)與訓(xùn)練的成本以及模型后期與業(yè)務(wù)結(jié)合的運(yùn)行成本,涉及計(jì)算資源、存儲(chǔ)費(fèi)用、網(wǎng)絡(luò)傳輸、數(shù)據(jù)標(biāo)注等費(fèi)用。

從訓(xùn)練成本來看,以ChatGPT為例,其訓(xùn)練成本一次大概需要數(shù)百萬美元。華為公布的數(shù)據(jù)顯示,大模型開發(fā)和訓(xùn)練一次所需的費(fèi)用大約1200萬美元。在高度迭代和反復(fù)訓(xùn)練過程中,再加上供不應(yīng)求的算力成本,大模型入門門檻將高達(dá)上億級別,這對于眾多企業(yè)來說是很難承受的壓力。

可以說,高昂的成本已經(jīng)成為大模型規(guī)?;瘧?yīng)用巨大阻礙。與此同時(shí),各大科技企業(yè)也在積極探索利用創(chuàng)新技術(shù)降低大模型應(yīng)用的成本。

降低AI開發(fā)門檻 云原生數(shù)倉助力大模型普惠化

值得關(guān)注的是,云計(jì)算平臺(tái)在大模型訓(xùn)練方面具備與生俱來的成本優(yōu)勢。企業(yè)可以基于云平臺(tái)自動(dòng)伸縮、按需計(jì)費(fèi)的特性,對大模型訓(xùn)練成本進(jìn)行合理規(guī)劃和控制。

大模型的核心邏輯是對海量數(shù)據(jù)的收集、加工、處理和運(yùn)算結(jié)果的輸出。如果將大模型比作“烹飪”,數(shù)據(jù)就好比是“食材”,數(shù)據(jù)倉庫則是必不可少的“廚具”。伴隨大模型熱潮的興起,對于支撐AI的底層數(shù)據(jù)倉庫也提出了更高的要求。

大模型龐大的數(shù)據(jù)量帶來了存儲(chǔ)和計(jì)算資源的壓力,這要求數(shù)據(jù)庫能夠提供可以橫向的并發(fā)訪問能力、多范式的數(shù)據(jù)處理分析能力和海量異構(gòu)數(shù)據(jù)的存儲(chǔ)管理能力。在這種趨勢下,基于云原生架構(gòu)的數(shù)據(jù)倉庫將成為未來數(shù)據(jù)庫行業(yè)發(fā)展的重要方向。

作為國內(nèi)最早專注于云原生數(shù)倉研發(fā)的企業(yè)之一,酷克數(shù)據(jù)從成立之初,就致力于降低大數(shù)據(jù)分析和應(yīng)用的門檻,其核心產(chǎn)品HashData云數(shù)倉基于云原生架構(gòu)設(shè)計(jì),通過元數(shù)據(jù)、計(jì)算和存儲(chǔ)層解耦,從而最大限度發(fā)揮云平臺(tái)的彈性和擴(kuò)展能力。

酷克數(shù)據(jù)即將推出的AI開發(fā)工具HashML,是一款基于HashData云數(shù)倉打造的新一代高級分析和數(shù)據(jù)科學(xué)工具箱,能夠?yàn)殚_發(fā)者提供豐富的AI算法和模型能力,僅需幾行代碼就能開啟模型訓(xùn)練、推理預(yù)測,在統(tǒng)一的框架下支持各種經(jīng)典的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法以及預(yù)訓(xùn)練大模型。

HashML與HashData云數(shù)倉共享統(tǒng)一的存儲(chǔ)和計(jì)算資源,隨數(shù)倉的部署提供開箱即用的AI能力,大幅降低了系統(tǒng)部署的成本和復(fù)雜度,為開發(fā)者提供了統(tǒng)一的數(shù)據(jù)查詢、分析、建模環(huán)境。

借助HashML,基于HashData的AI應(yīng)用開發(fā)將會(huì)變得非常簡單。HashML提供了從數(shù)據(jù)查詢處理、高級分析到ML/DL模型的訓(xùn)練、推理和服務(wù)部署的全套工具,包括對大語言模型微調(diào)和推理的支持,另外提供了Python和SQL兩種編程語言接口。

同時(shí),HashData正在開發(fā)增強(qiáng)數(shù)據(jù)倉庫支持向量數(shù)據(jù)存儲(chǔ)和處理檢索能力的功能組件,結(jié)合云數(shù)倉的高擴(kuò)展性、高可用和高彈性,實(shí)現(xiàn)更好地支撐和擴(kuò)展大模型的應(yīng)用場景。

未來,大模型將成為新型基礎(chǔ)設(shè)施的關(guān)鍵底座之一??峥藬?shù)據(jù)將通過領(lǐng)先的技術(shù)和完善的生態(tài),推動(dòng)人工智能技術(shù)普惠化,讓更多企業(yè)“用得起、用得上、用得好”大模型,助力企業(yè)成長。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )