引領(lǐng)數(shù)據(jù)領(lǐng)域AI工程化落地,為什么會(huì)是云測數(shù)據(jù)?

文|智能相對論

作者|葉遠(yuǎn)風(fēng)

2020年,Gartner發(fā)布《2021年重要戰(zhàn)略技術(shù)趨勢》,認(rèn)為AI工程化(AI Engineering)將是“需要深挖的趨勢”,到了2021年年底,在Gartner的《2022年十二大重要戰(zhàn)略技術(shù)趨勢》中,AI工程化又被進(jìn)一步明確為未來三到五年“企業(yè)數(shù)字業(yè)務(wù)創(chuàng)新的加速器”;

幾乎就在同一時(shí)期,阿里發(fā)布面向AI工程化的一體化大數(shù)據(jù)和AI產(chǎn)品體系“靈杰”,稱要推動(dòng)“AI落地范式的升級,共同推動(dòng)AI產(chǎn)業(yè)邁向新的增長”;

到了不久前落幕的服貿(mào)會(huì)上,人工智能數(shù)據(jù)企業(yè)云測數(shù)據(jù)發(fā)布了面向AI工程化的新一代數(shù)據(jù)解決方案,其價(jià)值設(shè)定為“高度支持企業(yè)所需數(shù)據(jù)的高效流轉(zhuǎn)、持續(xù)進(jìn)行數(shù)據(jù)處理任務(wù),提高規(guī)?;a(chǎn)效率”;

而即將召開的由 LF AI & DATA 基金會(huì)主辦、關(guān)注AI領(lǐng)域前沿革新的 AICON 2022,將為AI工程化設(shè)置專門的分論壇……

毫無疑問,在AI加速實(shí)現(xiàn)場景落地的今天,“AI工程化”已經(jīng)成為行業(yè)普遍的議題,被認(rèn)為是AI發(fā)展必然的趨勢之一。

什么是AI工程化?

按Gartner比較官方的定義,是“使用數(shù)據(jù)處理、預(yù)訓(xùn)練模型、機(jī)器學(xué)習(xí)流水線(MLOps) 等開發(fā)AI軟件的技術(shù)統(tǒng)稱,幫助企業(yè)更高效的利用AI創(chuàng)造價(jià)值”?!爸悄芟鄬φ摗闭J(rèn)為,AI工程化更簡單的理解,就是已經(jīng)十分成熟的軟件工程將“軟件”擴(kuò)展到AI后的一種針對AI開發(fā)特點(diǎn)的適配與進(jìn)化,通過系統(tǒng)化、規(guī)范化、可度量地使用各種工程方法和工具,確保AI軟件能夠達(dá)到預(yù)期。

這里,可以通過數(shù)據(jù)方面的AI工程化創(chuàng)新來幫助直觀理解。云測數(shù)據(jù)面向AI工程化的新一代數(shù)據(jù)解決方案,通過成熟數(shù)據(jù)管理和標(biāo)注平臺(tái)與企業(yè)完成系統(tǒng)集成+支持企業(yè)自定義預(yù)標(biāo)注算法接口+人員管理及項(xiàng)目管理體系+安全交付軟硬件支持的方式,在保證數(shù)據(jù)隱私安全的標(biāo)注環(huán)境下,高度支持企業(yè)所需數(shù)據(jù)的高效流轉(zhuǎn)、持續(xù)進(jìn)行數(shù)據(jù)處理任務(wù),從而提高規(guī)?;a(chǎn)效率:

可以看到,云測數(shù)據(jù)的AI數(shù)據(jù)解決方案利用了大量工程方法和工具,在宏觀布局上表現(xiàn)出系統(tǒng)化、規(guī)范化的特點(diǎn),大量細(xì)分模塊與能力也體現(xiàn)出AI開發(fā)工作方方面面的可度量性,最終服務(wù)于AI開發(fā)的全局,整體“一盤棋”(傳統(tǒng)軟件工程是“一條線”),這就是AI工程化能夠帶來的直觀感受。

而AI工程化為什么得到從權(quán)威機(jī)構(gòu)、互聯(lián)網(wǎng)大廠到數(shù)據(jù)服務(wù)創(chuàng)新企業(yè)的普遍重視?這可能要從AI發(fā)展的階段性需求談起。

算法、算力、數(shù)據(jù)……AI落地現(xiàn)在還需要AI工程化

AI的發(fā)展有標(biāo)準(zhǔn)的算法、算力、數(shù)據(jù)三要素,在Gartner看來,任何一個(gè)行業(yè)、企業(yè),只要有場景,有積累的數(shù)據(jù),有算力,都可以落地AI應(yīng)用。但Gartner同時(shí)指出,落地的效率、周期可能會(huì)遠(yuǎn)超預(yù)期,其研究擺明,“只有53%的項(xiàng)目能夠從AI原型有效轉(zhuǎn)化為生產(chǎn)”。

這意味著,在當(dāng)下場景落地成為主流的階段,并非只具備了精巧的算法、充沛的算力、足夠的數(shù)據(jù)就一定能夠做好AI場景應(yīng)用、實(shí)現(xiàn)好技術(shù)的價(jià)值——正如Gartner所言,“AI 要成為企業(yè)的生產(chǎn)力,就必須以工程化的技術(shù)來解決模型開發(fā)、訓(xùn)練、預(yù)測等全鏈路生命周期的問題。”

“智能相對論”認(rèn)為,傳統(tǒng)的軟件工程針對“產(chǎn)品”,主要經(jīng)歷需求分析、系統(tǒng)設(shè)計(jì)、代碼實(shí)現(xiàn)、驗(yàn)證、發(fā)布以及運(yùn)維的過程,瀑布式的流水線走下來,“產(chǎn)品”做好了發(fā)出去、做做售后就可以了。

而AI的場景落地雖然也給出的是“產(chǎn)品”,但其背后本質(zhì)上是一系列智能化“能力”的組合。既然是能力,開發(fā)流程就與傳統(tǒng)軟件有較大出入,是問題抽象、數(shù)據(jù)準(zhǔn)備、算法設(shè)計(jì)、模型訓(xùn)練、模型評估與調(diào)優(yōu)、模型部署的過程,在部署之后,還需要根據(jù)場景實(shí)踐不斷反饋到數(shù)據(jù)準(zhǔn)備和算法設(shè)計(jì)上,從而讓AI的“能力”不斷接近和達(dá)到預(yù)期。

因此,傳統(tǒng)的軟件工程體系做法已經(jīng)無法支撐AI開發(fā)的需要,必須要有新的方式來推動(dòng),AI工程化提供了專門適配AI開發(fā)的一系列方法、工具和實(shí)踐的集合,就起到了這個(gè)價(jià)值,為算力、算法和數(shù)據(jù)提供了新的利用方式,持續(xù)為場景創(chuàng)造價(jià)值。

這也說明,大規(guī)模落地階段,AI工程化更加被深刻需要。目前而言,市面上大體有兩種面向AI工程化的做法。

一種是AI開發(fā)框架型,也即原本就提供AI開發(fā)服務(wù)的各種深度學(xué)習(xí)框架,將服務(wù)延展而來,其優(yōu)勢在于AI框架原本就是AI領(lǐng)域的基礎(chǔ)軟件,處于承上啟下的位置,提供面向AI工程化的服務(wù)“近水樓臺(tái)”。

這方面,以Google、Meta等科技巨頭為代表,國內(nèi)有華為、百度等,以TensorFlow、PyTorch、MindSpore、PaddlePaddle等各自的深度學(xué)習(xí)框架為基礎(chǔ),提供一系列與AI工程相關(guān)的生態(tài)技術(shù)和工具,如領(lǐng)域套件、模型可視化工具、調(diào)試調(diào)優(yōu)工具、高級API等。

另一種是AI服務(wù)平臺(tái)型,也即過去為企業(yè)提供算力、算法、數(shù)據(jù)相關(guān)服務(wù)的企業(yè),隨著客戶需求的發(fā)展專門提供面向AI工程化的能力。阿里的“靈杰”(算法方面)與云測數(shù)據(jù)面向AI工程化的解決方案(數(shù)據(jù)方面)都是如此。

水到渠成,面向AI工程化的數(shù)據(jù)解決方案是AI開發(fā)服務(wù)不斷成熟的結(jié)果

Gartner在《2022年十二大重要戰(zhàn)略技術(shù)趨勢》認(rèn)為,到2025年,前10%做到AI工程化最佳實(shí)踐的企業(yè)相對于之后90%的企業(yè),將從AI創(chuàng)新中得到超過3倍的價(jià)值,足見AI工程化的重要性。

所以,相關(guān)企業(yè)尋求AI工程化成為一種必要,也催生出較為廣闊的產(chǎn)業(yè)鏈機(jī)遇空間。

這其中,隨著云測數(shù)據(jù)推出面向AI工程化的新一代數(shù)據(jù)解決方案,在對外服務(wù)這件事上,數(shù)據(jù)領(lǐng)域的AI工程化步伐更快一些。在數(shù)據(jù)方面幾乎都有強(qiáng)烈需求的AI企業(yè)們,已經(jīng)可以率先獲得整體化的服務(wù)。

但是,從云測數(shù)據(jù)此次發(fā)布的解決方案來看,數(shù)據(jù)方面的AI工程化雖然是某種程度上的藍(lán)海市場,但卻并非人人都可以參與進(jìn)來提供相關(guān)的解決方案以獲取市場機(jī)會(huì),它基于已有的AI開發(fā)實(shí)踐或服務(wù)積累,不是憑空而來,是長期的AI工程化實(shí)踐(但沒有喊出這個(gè)概念)抽離、整合而來。

以其中的平臺(tái)工具模塊為例,其解決方案有豐富的數(shù)據(jù)標(biāo)注工具:

以及一個(gè)在流程和邏輯上閉環(huán)的數(shù)據(jù)流轉(zhuǎn)管理體系(通過這個(gè)體系也可以對AI工程化究竟做了什么有更直觀的印象):

這兩大內(nèi)容,顯然不是一個(gè)新晉玩家所能提供的,它們都源于云測數(shù)據(jù)過去向AI企業(yè)提供通用數(shù)據(jù)集、數(shù)據(jù)標(biāo)注平臺(tái)與數(shù)據(jù)管理系統(tǒng)等生產(chǎn)工具以及多年的AI訓(xùn)練數(shù)據(jù)服務(wù)的行業(yè)成熟經(jīng)驗(yàn)。

云測數(shù)據(jù)的主要業(yè)務(wù)是面向智能駕駛、智慧城市、智能家居、智慧金融、新零售等眾多領(lǐng)域提供一站式AI數(shù)據(jù)處理服務(wù),已經(jīng)先后推出過“云測數(shù)據(jù)標(biāo)注平臺(tái)”、“AI數(shù)據(jù)集管理系統(tǒng)”等面向市場的成果,其數(shù)據(jù)標(biāo)注精度最高做到了99.99%,曾幫助某自動(dòng)駕駛車企實(shí)現(xiàn)數(shù)據(jù)清洗、標(biāo)注工作與原流程相比提升2倍的流轉(zhuǎn)效率。

正是因?yàn)檫^去實(shí)現(xiàn)了從“數(shù)據(jù)原料”到最后的“數(shù)據(jù)成品”全鏈條打通,做到場景數(shù)據(jù)專業(yè)化、高質(zhì)量交付,有足夠的技術(shù)成熟度和標(biāo)注經(jīng)驗(yàn)與管理流程,現(xiàn)在云測數(shù)據(jù)這樣的企業(yè)才能夠推出面向AI工程化的數(shù)據(jù)解決方案。

除了平臺(tái)工具模塊,實(shí)際上,云測數(shù)據(jù)的解決方案在保障數(shù)據(jù)安全模塊上的部署,也來自于這種積累——必須在數(shù)據(jù)質(zhì)量和交付效率之外保證數(shù)據(jù)安全,自然就沉淀了安全管理的一套體系,現(xiàn)在可以拿過來整體化輸出,既提供了一套安全交付的標(biāo)準(zhǔn),也包括多個(gè)ISO企業(yè)安全體系認(rèn)證。

以安全交付標(biāo)準(zhǔn)為例,云測數(shù)據(jù)在硬件配置、網(wǎng)絡(luò)安全、物理安全、人員安全管理上都進(jìn)行了能力設(shè)置,這些能力針對AI開發(fā)中涉及數(shù)據(jù)存儲(chǔ)、傳輸?shù)姆椒矫婷?,以事先體系化布局而不是事后一個(gè)個(gè)補(bǔ)漏的方式來規(guī)避數(shù)據(jù)安全風(fēng)險(xiǎn),而這,就是“工程化”。

在這種做法下,數(shù)據(jù)安全的提升是顯而易見的。

最直觀的,由于云測數(shù)據(jù)所提供這套體系讓數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)標(biāo)注、數(shù)據(jù)傳遞等有統(tǒng)一的管理,數(shù)據(jù)的流轉(zhuǎn)等不需要經(jīng)過人力環(huán)節(jié)(人力主要負(fù)責(zé)工單而不是數(shù)據(jù)本身的流轉(zhuǎn),比如不用人力遞送數(shù)據(jù)硬盤),這使得AI開發(fā)的數(shù)據(jù)環(huán)節(jié)大大降低了對人的依賴,減少了失誤等風(fēng)險(xiǎn)發(fā)生的可能性。

更進(jìn)一步看,在平臺(tái)工具、安全模塊之外,面向AI工程化的數(shù)據(jù)服務(wù)的機(jī)遇只屬于有行業(yè)經(jīng)驗(yàn)的企業(yè),也促成后者能夠進(jìn)行更多業(yè)務(wù)合作的探索,人員和項(xiàng)目管理模塊就是如此。

有關(guān)數(shù)據(jù)的AI開發(fā)工作除了技術(shù)性的內(nèi)容,還離不開AI人力相關(guān)的管理,離不開項(xiàng)目管理,而云測數(shù)據(jù)基于其過去在數(shù)據(jù)方面的人才、項(xiàng)目管理經(jīng)驗(yàn),在解決方案中也提供有匹配人員管理與項(xiàng)目管理的一套并行的體系作為支撐,包括招聘體系、業(yè)績培訓(xùn)體系、領(lǐng)域知識培訓(xùn)體系、項(xiàng)目管理體系、責(zé)任安全體系、績效職級管理體系等,其本質(zhì)是以認(rèn)知資源的共享換取商業(yè)價(jià)值,典型如,云測數(shù)據(jù)更了解數(shù)據(jù)標(biāo)注人才的需要、更知道從哪里可以找到特定的人才、如何培育人才、更知道怎么管理項(xiàng)目。

當(dāng)然,圍繞數(shù)據(jù)、作為一種根本上的To B服務(wù),盡管有先天優(yōu)勢,但云測數(shù)據(jù)面向AI工程化的數(shù)據(jù)解決方案的落地,還需要考慮對不同AI開發(fā)企業(yè)的適配,畢竟AI工程化是系統(tǒng)工程,牽扯面往往較廣。

這方面,通過API集成屏蔽不同企業(yè)的差異、做到廣泛適配是解決之道,還可以看到,云測數(shù)據(jù)的解決方案中就在平臺(tái)工具模塊中設(shè)置了標(biāo)準(zhǔn)協(xié)議接口、數(shù)據(jù)價(jià)值可視化、數(shù)據(jù)處理工作臺(tái)、數(shù)據(jù)權(quán)限管理等,來讓不同企業(yè)的管理體系都能快速進(jìn)行對接。

AI“工業(yè)化大生產(chǎn)”來臨,數(shù)據(jù)領(lǐng)域的AI工程化與大模型率先匯流

AI工程化其價(jià)值和機(jī)遇不僅在于AI開發(fā)過程,其對大模型的促進(jìn)作用也不容忽視。

從更宏觀的視野看,AI工程化的趨勢與當(dāng)下AI領(lǐng)域的熱點(diǎn)大模型一樣,都是在推動(dòng)AI“工業(yè)化大生產(chǎn)”(高效率的批量化AI落地,而不是作坊式的一個(gè)個(gè)生產(chǎn)),只不過一個(gè)從開發(fā)全過程出發(fā),一個(gè)從模型本身出發(fā)。

二者碰撞到一起并非只是一種巧合,AI工程化與大模型也在實(shí)現(xiàn)著協(xié)同。

一方面,這體現(xiàn)在大模型開發(fā)本身,也即“預(yù)訓(xùn)練”階段的工程化。

例如,知名NLP領(lǐng)域的大模型GPT-3其模型復(fù)雜度非常高,僅模型參數(shù)就高達(dá)1750億個(gè),訓(xùn)練數(shù)據(jù)量達(dá)到45TB,訓(xùn)練出的模型有700GB大小。

這么復(fù)雜的工作,肯定不是有了算法、算力以及數(shù)據(jù)就能搞定的,其開發(fā)工作有31位參與者,形成了一套在數(shù)據(jù)處理、模型設(shè)計(jì)、代碼編寫、調(diào)試參數(shù)等領(lǐng)域各司其職的復(fù)雜工作體系來保障工作的順利推進(jìn),其本質(zhì)就是AI工程化。

另一方面,這體現(xiàn)在大模型的場景調(diào)優(yōu)上,也即“微調(diào)”階段的工程化。

大模型時(shí)代許多場景只要基于基礎(chǔ)大模型進(jìn)行微調(diào)便可以產(chǎn)生優(yōu)質(zhì)的場景應(yīng)用,云測數(shù)據(jù)總經(jīng)理賈宇航認(rèn)為,AI工程化在這個(gè)“微調(diào)”的階段將起到重要的作用,幫助更多場景應(yīng)用高效、高質(zhì)量交付與持續(xù)優(yōu)化。

現(xiàn)在,隨著云測數(shù)據(jù)推出面向AI工程化的數(shù)據(jù)解決方案,以及行業(yè)內(nèi)許多典型大模型開始走向應(yīng)用,至少在數(shù)據(jù)領(lǐng)域,AI工程化與大模型的匯流已經(jīng)在開始。

當(dāng)然,也有預(yù)訓(xùn)練階段與“微調(diào)”階段通吃的AI工程化服務(wù)做法,例如阿里的“靈杰”就宣稱既可以實(shí)現(xiàn)超大規(guī)模模型的構(gòu)建,也可以實(shí)現(xiàn)垂直場景小模型“蒸餾”。

無論如何,數(shù)據(jù)領(lǐng)域的AI工程化與大模型匯流,共同推動(dòng)AI應(yīng)用加速實(shí)現(xiàn)更廣泛、更優(yōu)質(zhì)的場景落地,這其中涌現(xiàn)了新的商業(yè)合作機(jī)遇,但更重要的是在工程化開發(fā)與預(yù)訓(xùn)練的優(yōu)勢疊加下,AI將真正走入千行百業(yè),變得更加普惠。

*本文圖片均來源于網(wǎng)絡(luò)

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-09-19
引領(lǐng)數(shù)據(jù)領(lǐng)域AI工程化落地,為什么會(huì)是云測數(shù)據(jù)?
既然是能力,開發(fā)流程就與傳統(tǒng)軟件有較大出入,是問題抽象、數(shù)據(jù)準(zhǔn)備、算法設(shè)計(jì)、模型訓(xùn)練、模型評估與調(diào)優(yōu)、模型部署的過程,在部署之后,還需要根據(jù)場景實(shí)踐不斷反饋到數(shù)據(jù)準(zhǔn)備和算法設(shè)計(jì)上,從而讓AI的“能力”

長按掃碼 閱讀全文