原標(biāo)題:向產(chǎn)業(yè)鏈精細(xì)化進(jìn)軍:AI該如何深挖訓(xùn)練數(shù)據(jù)價(jià)值?
文|智能相對(duì)論
作者|葉遠(yuǎn)風(fēng)
AI算法工程師像普通用戶在搜索引擎上搜索信息一樣,將數(shù)據(jù)標(biāo)注結(jié)果的標(biāo)簽(例如,車輛、樹木)輸入到互動(dòng)窗口,所有與之有關(guān)的AI數(shù)據(jù)“元信息”就被篩選出來(lái),隨后,工程師用新的方式將這些數(shù)據(jù)重新“打包”構(gòu)建起一個(gè)新的場(chǎng)景庫(kù),導(dǎo)入到AI模型的訓(xùn)練過程當(dāng)中,一次針對(duì)特定場(chǎng)景的迭代訓(xùn)練就這樣開始了。
如果工程師需要,還可以根據(jù)最初采集數(shù)據(jù)的傳感器,或諸多其他區(qū)分?jǐn)?shù)據(jù)的屬性來(lái)精確定位數(shù)據(jù)。
這是某自動(dòng)駕駛AI開發(fā)企業(yè)里的一次專注于特定場(chǎng)景AI模型訓(xùn)練的工作日常,看起來(lái)再正常不過,而在這之前,這家企業(yè)長(zhǎng)期面臨在龐大冗雜的訓(xùn)練數(shù)據(jù)庫(kù)里難以篩選有價(jià)值數(shù)據(jù)進(jìn)行特定場(chǎng)景模型訓(xùn)練的尷尬問題,“守著金山挖不動(dòng)”。
問題的解決,是從采用了專門針對(duì)“AI數(shù)據(jù)集”的管理系統(tǒng)開始的——這個(gè)AI企業(yè)工作切面的背后,反映的是AI“產(chǎn)業(yè)鏈條”上值得關(guān)注的變化。
AI場(chǎng)景化落地正隨著數(shù)字經(jīng)濟(jì)的全面滲透而進(jìn)入提速階段,算法、算力和數(shù)據(jù)共同構(gòu)成技術(shù)發(fā)展的三大核心要素,打通這三大環(huán)節(jié)才能讓一個(gè)個(gè)AI應(yīng)用真正落地到具體場(chǎng)景里產(chǎn)生價(jià)值。由此,在走向最終的產(chǎn)業(yè)應(yīng)用之前,“生產(chǎn)”AI應(yīng)用的“產(chǎn)業(yè)鏈條”上也蘊(yùn)含了無(wú)數(shù)的商業(yè)機(jī)會(huì)。
但是,在數(shù)據(jù)層面,過去多數(shù)人最關(guān)心的只有喂養(yǎng)AI模型的“量”夠不夠用、數(shù)據(jù)的“質(zhì)”夠不夠精準(zhǔn),而現(xiàn)在,數(shù)據(jù)這個(gè)AI“產(chǎn)業(yè)鏈條”的重要環(huán)節(jié)還在進(jìn)一步細(xì)化,專業(yè)的AI數(shù)據(jù)集管理——Al數(shù)據(jù)集的上傳、管理、存儲(chǔ)、分享,正展示出推動(dòng)高質(zhì)量AI應(yīng)用落地的價(jià)值,例如不久前的2021服貿(mào)會(huì)上,原本以高質(zhì)量AI訓(xùn)練數(shù)據(jù)服務(wù)見長(zhǎng)于業(yè)內(nèi)的云測(cè)數(shù)據(jù),就在其云測(cè)數(shù)據(jù)標(biāo)注平臺(tái)基礎(chǔ)上發(fā)布了AI數(shù)據(jù)集管理系統(tǒng),要為企業(yè)提供專業(yè)的AI數(shù)據(jù)集管理服務(wù)。
而這個(gè)賽道上不只有云測(cè)數(shù)據(jù),多種主體參與的產(chǎn)業(yè)現(xiàn)象正在這里形成,也帶來(lái)當(dāng)下人工智能領(lǐng)域重要的創(chuàng)新機(jī)遇。
按下葫蘆浮起瓢, AI數(shù)據(jù)集管理挑戰(zhàn)顯現(xiàn)
誠(chéng)然,隨著算法模型、技術(shù)理論和應(yīng)用場(chǎng)景的不斷突破,加之“新基建”浪潮下算力基礎(chǔ)設(shè)施的快速建設(shè),AI產(chǎn)業(yè)對(duì)數(shù)據(jù)“量”的需求在不斷增長(zhǎng),數(shù)據(jù)量“短缺”一度成為AI產(chǎn)業(yè)鏈條上的瓶頸問題。
但是,這可能并不會(huì)持續(xù)很長(zhǎng)時(shí)間,嗅到機(jī)會(huì)的科技巨頭、創(chuàng)新企業(yè)前些年在數(shù)據(jù)采集與標(biāo)注上廣泛布局,推動(dòng)合格數(shù)據(jù)的“量”快速增長(zhǎng),這也使得數(shù)據(jù)標(biāo)注行業(yè)作為AI上游基礎(chǔ)產(chǎn)業(yè)在短短數(shù)年間實(shí)現(xiàn)了爆發(fā)式發(fā)展。
有數(shù)據(jù)顯示,2019年、2020年,數(shù)據(jù)標(biāo)注行業(yè)市場(chǎng)規(guī)模為30.9億元、36億元左右,年均復(fù)合增長(zhǎng)率20%左右,預(yù)計(jì)到2025年,國(guó)內(nèi)數(shù)據(jù)標(biāo)注市場(chǎng)規(guī)模將突破100億元大關(guān)。
這背后,根據(jù)AI數(shù)據(jù)標(biāo)注猿統(tǒng)計(jì)數(shù)據(jù),2020年4月,國(guó)內(nèi)數(shù)據(jù)標(biāo)注業(yè)務(wù)相關(guān)公司數(shù)量為565家,2020年12月,數(shù)量增長(zhǎng)至705家,2020年4月份到12月份的相關(guān)數(shù)據(jù)標(biāo)注需求公司增量為24.78%,約20萬(wàn)全職從業(yè)者與約100萬(wàn)兼職從業(yè)者,正在讓AI產(chǎn)業(yè)走出數(shù)據(jù)荒。
當(dāng)然,AI數(shù)據(jù)也不僅僅來(lái)源于數(shù)據(jù)標(biāo)注,互聯(lián)網(wǎng)科技的快速發(fā)展也在助推中國(guó)數(shù)據(jù)“供給量”的總體提升,在IDC的報(bào)告中,中國(guó)的數(shù)據(jù)量增速比全球快3%,預(yù)計(jì)到2025年將增至48.6ZB,占全球總量的27.8%,年復(fù)合增長(zhǎng)率達(dá)30.35%。
但是,量的問題一定程度上解決后,新的問題又冒了出來(lái)——如何更高效地利用數(shù)據(jù),發(fā)揮數(shù)據(jù)的價(jià)值。其重要背景,是AI應(yīng)用的開發(fā)方式發(fā)生了從項(xiàng)目制到敏捷開發(fā)的重要轉(zhuǎn)變:
過去AI模型訓(xùn)練以一個(gè)個(gè)項(xiàng)目為主,做完項(xiàng)目、得出一個(gè)預(yù)期質(zhì)量的AI模型后,使用過的數(shù)據(jù)便被“丟棄”;而現(xiàn)在,企業(yè)傾向于持續(xù)把過去已有的數(shù)據(jù)利用起來(lái),逐步形成屬于企業(yè)的數(shù)據(jù)池子,將數(shù)據(jù)在多個(gè)相關(guān)模型開發(fā)中進(jìn)行重復(fù)利用。
這就導(dǎo)致單個(gè)企業(yè)所積累的數(shù)據(jù)量越來(lái)越多,而眾所周知數(shù)據(jù)量的增長(zhǎng)又以非結(jié)構(gòu)化數(shù)據(jù)為主,企業(yè)所面臨的AI數(shù)據(jù)集管理的挑戰(zhàn)越來(lái)越明顯,例如,數(shù)據(jù)量太大,針對(duì)特殊的場(chǎng)景缺乏精準(zhǔn)的方式去找到有價(jià)值的數(shù)據(jù);原本數(shù)據(jù)管理凌亂,本地服務(wù)器存一點(diǎn)、云端有一點(diǎn),版本更新不同步,甚至出現(xiàn)一個(gè)Excel表格管理數(shù)據(jù)的現(xiàn)象;數(shù)據(jù)隨意拷貝、傳輸,存在重大的資產(chǎn)損失風(fēng)險(xiǎn)等等。
顯而易見,這時(shí)候,能夠幫助企業(yè)管理好AI數(shù)據(jù),就成了重要的創(chuàng)新機(jī)遇。
到目前為止,有三類不同背景的玩家在加入賽道:
一是原本就向企業(yè)提供數(shù)據(jù)采集與標(biāo)注服務(wù)的廠商,例如開篇提到的云測(cè)數(shù)據(jù),這類企業(yè)入局,是AI“產(chǎn)業(yè)鏈條”自然延伸的結(jié)果。
從行業(yè)地位看,在《互聯(lián)網(wǎng)周刊》&eNet研究院、德本咨詢聯(lián)合發(fā)布的《2021數(shù)據(jù)標(biāo)注公司排行》中,云測(cè)數(shù)據(jù)憑借最高99.99%精準(zhǔn)度數(shù)據(jù)標(biāo)注能力和場(chǎng)景化訓(xùn)練數(shù)據(jù)方案等,再次排在“數(shù)據(jù)標(biāo)注公司排行”榜首位置,其云測(cè)數(shù)據(jù)標(biāo)注平臺(tái)4.0能夠?qū)崿F(xiàn)AI數(shù)據(jù)訓(xùn)練綜合效率提升200%。
但是,越是如此,云測(cè)數(shù)據(jù)這樣的平臺(tái)就越繞不過企業(yè)AI數(shù)據(jù)管理的問題——如果只是提供數(shù)據(jù)、幫助訓(xùn)練效率提升,而不推動(dòng)企業(yè)“搞定”數(shù)據(jù)管理,隨著企業(yè)面臨數(shù)據(jù)管理的挑戰(zhàn),其商業(yè)模式越往下走就越會(huì)越到障礙,這時(shí)候,就只能在已有的技術(shù)和服務(wù)經(jīng)驗(yàn)積累的基礎(chǔ)之上拓展AI產(chǎn)業(yè)鏈條細(xì)化環(huán)節(jié),推出專門的針對(duì)AI數(shù)據(jù)集管理的技術(shù)系統(tǒng)——也順勢(shì)成為國(guó)內(nèi)首個(gè)該領(lǐng)域的系統(tǒng)。
可以說(shuō),云測(cè)數(shù)據(jù)推出AI數(shù)據(jù)集管理系統(tǒng),既是基于人工智能行業(yè)前瞻性發(fā)展的具象化技術(shù)產(chǎn)品體現(xiàn),為企業(yè)尋找新的發(fā)展空間,也是AI產(chǎn)業(yè)鏈條閉環(huán)的一種倒逼。
其優(yōu)勢(shì)在于,作為原來(lái)的AI訓(xùn)練數(shù)據(jù)服務(wù)商,借助AI數(shù)據(jù)集管理系統(tǒng),可以以“全生命周期關(guān)注”的姿態(tài)走進(jìn)需求企業(yè),推動(dòng)企業(yè)從最開始的數(shù)據(jù)獲取到最終的產(chǎn)業(yè)落地全周期效率提升,幫助客戶企業(yè)整體化思考,也契合AI發(fā)展告別項(xiàng)目制走向敏捷開發(fā)的趨勢(shì)。而作為原本AI訓(xùn)練數(shù)據(jù)服務(wù)領(lǐng)域的領(lǐng)導(dǎo)者,云測(cè)數(shù)據(jù)的智能駕駛、智慧城市、智能家居、智慧金融、新零售等眾多垂直領(lǐng)域的數(shù)據(jù)服務(wù)技術(shù)與經(jīng)驗(yàn)可以很好地橫移到AI數(shù)據(jù)集管理當(dāng)中,在數(shù)據(jù)檢索、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)安全保障等方面有垂直化的經(jīng)驗(yàn)壁壘。
二是互聯(lián)網(wǎng)、科技領(lǐng)域的大廠,它們都具備云計(jì)算方面的數(shù)據(jù)管理基礎(chǔ)稟賦,其入局,是從數(shù)據(jù)管理大賽道延展到AI數(shù)據(jù)集管理小賽道的客觀結(jié)果。
較為典型的是IBM,面向中國(guó)市場(chǎng)提供混合數(shù)據(jù)管理系統(tǒng),“利用數(shù)據(jù)管理驅(qū)動(dòng)AI”是官方宣稱的重要價(jià)值之一,例如其IBM Cloud Pak for Data,產(chǎn)品功能是幫助企業(yè)收集、組織和分析數(shù)據(jù),“以實(shí)現(xiàn)有影響力的AI”,而其實(shí)現(xiàn)主要包括在容器化的環(huán)境中運(yùn)行IBM Db2 Warehouse等——不需要知道這是什么,只要知道這些原本就用于云計(jì)算數(shù)據(jù)管理即可。
其他如從事數(shù)據(jù)標(biāo)注的百度、阿里等,其云計(jì)算中都或多或少包含AI數(shù)據(jù)集管理的能力,只不過并非專門的系統(tǒng),這類企業(yè)的優(yōu)勢(shì)在于,原本的數(shù)據(jù)管理往往會(huì)積累一定的基礎(chǔ)客戶量,在品牌上也有大廠背書。
三是“白手起家”,直接切入賽道的創(chuàng)新企業(yè),這類企業(yè)以尋找商業(yè)機(jī)會(huì)為直接目標(biāo)。
例如來(lái)自上海的格物鈦,主要提供面向機(jī)器學(xué)習(xí)的數(shù)據(jù)管理SaaS產(chǎn)品,支持企業(yè)進(jìn)行海量數(shù)據(jù)托管,宣稱要提供“人工智能基礎(chǔ)設(shè)施”,該企業(yè)目前得到了紅杉、云啟、真格以及風(fēng)和資本的千萬(wàn)美金Pre-A輪融資,這從側(cè)面反映了AI數(shù)據(jù)集管理的價(jià)值潛力。
這類企業(yè)的優(yōu)勢(shì)在于輕裝上陣,在資本的青睞和支撐下似乎可以把產(chǎn)品做得更精細(xì)化,當(dāng)然,它們的出現(xiàn),也意味著后續(xù)將有更多過去與AI數(shù)據(jù)集沒有“淵源”的創(chuàng)新企業(yè)加入,這個(gè)賽道會(huì)越來(lái)越熱鬧。
標(biāo)準(zhǔn)化的四個(gè)維度, AI數(shù)據(jù)集管理挖掘AI產(chǎn)業(yè)鏈細(xì)化環(huán)節(jié)的創(chuàng)新價(jià)值
從具體做法來(lái)看,不管什么來(lái)路,做AI數(shù)據(jù)集管理,無(wú)非都包括標(biāo)準(zhǔn)化的四個(gè)維度,只不過實(shí)現(xiàn)方式各不相同。
首先,是便捷的數(shù)據(jù)檢索和利用。
量大且非標(biāo)準(zhǔn)化,池子還在不斷擴(kuò)大,于是方便的檢索和利用就成為AI數(shù)據(jù)集管理的核心任務(wù)。
這方面,IBM使用了開放式平臺(tái)上的自動(dòng)容器化功能,通過架構(gòu)優(yōu)勢(shì)來(lái)讓數(shù)據(jù)收集和管理變得更加簡(jiǎn)單智能,易于訪問;而云測(cè)數(shù)據(jù)等企業(yè)都采用的是清晰化的標(biāo)簽與屬性體系讓工程師可以快速找到想要的數(shù)據(jù)。
值得一提的是,云測(cè)數(shù)據(jù)的AI數(shù)據(jù)集管理系統(tǒng)還適配了多數(shù)的公開、開源數(shù)據(jù)集格式,這使得企業(yè)無(wú)論是從外部獲得數(shù)據(jù)(這種情況十分普遍)還是自己花錢采集與標(biāo)注得到的數(shù)據(jù),都能得到統(tǒng)一的管理。
此外,數(shù)據(jù)的“可讀性”也是衡量AI數(shù)據(jù)集管理系統(tǒng)能力的關(guān)鍵指標(biāo),在數(shù)據(jù)篩選出來(lái)后還能將數(shù)據(jù)還原,能有效幫助AI開發(fā)過程實(shí)現(xiàn)精細(xì)化(圖:云測(cè)數(shù)據(jù)-AI數(shù)據(jù)集管理系統(tǒng)數(shù)據(jù)可視化界面):
一方面,這類可視化功能可以幫助AI開發(fā)工程師直接查看數(shù)據(jù)最開始的狀況,更容易理解數(shù)據(jù);另一方面,如果工程師有新的數(shù)據(jù)需求,也可以通過可視化的方式進(jìn)行精確化的數(shù)據(jù)調(diào)校。
然后,是日常管理和使用的便捷性、安全性。
本質(zhì)上,AI數(shù)據(jù)集管理是企業(yè)AI開發(fā)工作流程在信息化方面的一種體現(xiàn),作為重要的工作對(duì)象和企業(yè)資產(chǎn),企業(yè)層面的流程規(guī)范必須在AI數(shù)據(jù)集管理系統(tǒng)中得到遵守。
所以,可以看到,格物鈦在系統(tǒng)中做到了數(shù)據(jù)的查看、編輯、使用和管理權(quán)限分離,來(lái)保障數(shù)據(jù)的訪問安全;而云測(cè)數(shù)據(jù)則強(qiáng)調(diào)多團(tuán)隊(duì)協(xié)作與數(shù)據(jù)資產(chǎn)化管理同步進(jìn)行,提供多團(tuán)隊(duì)數(shù)據(jù)使用權(quán)限分配、存儲(chǔ)空間限定、使用日志記錄等功能,企業(yè)可以根據(jù)實(shí)際需要靈活配置權(quán)限,這種做法能保證數(shù)據(jù)版本、工作協(xié)同的效率,且“數(shù)據(jù)失竊”、“刪庫(kù)跑路”等資產(chǎn)損失事件將最大程度規(guī)避。
再有,是對(duì)企業(yè)自主擴(kuò)展的支持。
一般而言,AI數(shù)據(jù)集管理都是與企業(yè)AI開發(fā)全流程緊密融合的,企業(yè)往往要將這套系統(tǒng)進(jìn)行擴(kuò)展以更好地滿足上下游業(yè)務(wù)需求,而由于不同行業(yè)、企業(yè)的情況各不相同,服務(wù)廠商不太可能提供一個(gè)能夠支持所有企業(yè)都將AI數(shù)據(jù)集管理系統(tǒng)與企業(yè)上下游業(yè)務(wù)實(shí)際相融合的標(biāo)品方案。
這時(shí)候,將系統(tǒng)做得很有擴(kuò)展性,盡可能基礎(chǔ)化、通用化,并支持企業(yè)自主開發(fā)擴(kuò)展就變得很重要,可以看到,云測(cè)數(shù)據(jù)提供了有Python SDK、CLI和API等開發(fā)工具,讓企業(yè)可以根據(jù)業(yè)務(wù)需要,持續(xù)集成數(shù)據(jù)輸入、輸出訓(xùn)練、數(shù)據(jù)迭代等業(yè)務(wù)場(chǎng)景。
最后,是部署成本的節(jié)約。
這是很多企業(yè)選擇AI數(shù)據(jù)集管理系統(tǒng)的重要決策依據(jù)。
由于公有云、私有云的發(fā)展,這方面的邏輯已經(jīng)變得比較簡(jiǎn)單,越是彈性化、包容性強(qiáng)的方案,越可能實(shí)現(xiàn)恰當(dāng)?shù)某杀局С?,典型如云測(cè)數(shù)據(jù)就十分強(qiáng)調(diào)其“靈活易擴(kuò)展的混合存儲(chǔ)支持”的特性,支持根據(jù)數(shù)據(jù)安全級(jí)別、使用頻率、使用方式等對(duì)數(shù)據(jù)集分級(jí)管理,讓企業(yè)可以“在安全和經(jīng)濟(jì)上靈活選擇”。
總體而言,AI數(shù)據(jù)集管理系統(tǒng)需要照顧的企業(yè)需求已經(jīng)固定,剩下的是入局的玩家如何根據(jù)自身優(yōu)勢(shì)各顯神通、挖掘更深度的商業(yè)價(jià)值了。
結(jié)語(yǔ)
服貿(mào)會(huì)上,云測(cè)數(shù)據(jù)在推出其AI數(shù)據(jù)集管理系統(tǒng)時(shí),特地強(qiáng)調(diào)了“采、標(biāo)、管、存一站式服務(wù)”,回過頭來(lái)看,這固然是個(gè)體廠商在強(qiáng)調(diào)自身的獨(dú)特優(yōu)勢(shì),但從行業(yè)角度而言,也某種程度上說(shuō)明了AI數(shù)據(jù)集管理的最根本意義是讓AI在最終落地前形成標(biāo)準(zhǔn)化的產(chǎn)業(yè)鏈條,所謂AI應(yīng)用的“工業(yè)化大生產(chǎn)”能夠從最初的“原料”到最后的“成品”實(shí)現(xiàn)全鏈條打通,而這,通常是一個(gè)行業(yè)走向成熟的重要標(biāo)志。
一旦“產(chǎn)業(yè)鏈條”走向完善,AI訓(xùn)練數(shù)據(jù)將不只有在采集標(biāo)注時(shí)精確度提升,其價(jià)值也將得到充分挖掘??傮w來(lái)看,AI應(yīng)用開發(fā)的質(zhì)量、效率都將得到提升,而最終成本將會(huì)下降,所謂的“提質(zhì)、增效、降本”三位一體的企業(yè)理想或也將最終得以實(shí)現(xiàn)。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。