文|智能相對論
作者|葉遠(yuǎn)風(fēng)
AI算法工程師像普通用戶在搜索引擎上搜索信息一樣,將數(shù)據(jù)標(biāo)注結(jié)果的標(biāo)簽(例如,車輛、樹木)輸入到互動窗口,所有與之有關(guān)的AI數(shù)據(jù)“元信息”就被篩選出來,隨后,工程師用新的方式將這些數(shù)據(jù)重新“打包”構(gòu)建起一個(gè)新的場景庫,導(dǎo)入到AI模型的訓(xùn)練過程當(dāng)中,一次針對特定場景的迭代訓(xùn)練就這樣開始了。
如果工程師需要,還可以根據(jù)最初采集數(shù)據(jù)的傳感器,或諸多其他區(qū)分?jǐn)?shù)據(jù)的屬性來精確定位數(shù)據(jù)。
這是某自動駕駛AI開發(fā)企業(yè)里的一次專注于特定場景AI模型訓(xùn)練的工作日常,看起來再正常不過,而在這之前,這家企業(yè)長期面臨在龐大冗雜的訓(xùn)練數(shù)據(jù)庫里難以篩選有價(jià)值數(shù)據(jù)進(jìn)行特定場景模型訓(xùn)練的尷尬問題,“守著金山挖不動”。
問題的解決,是從采用了專門針對“AI數(shù)據(jù)集”的管理系統(tǒng)開始的——這個(gè)AI企業(yè)工作切面的背后,反映的是AI“產(chǎn)業(yè)鏈條”上值得關(guān)注的變化。
AI場景化落地正隨著數(shù)字經(jīng)濟(jì)的全面滲透而進(jìn)入提速階段,算法、算力和數(shù)據(jù)共同構(gòu)成技術(shù)發(fā)展的三大核心要素,打通這三大環(huán)節(jié)才能讓一個(gè)個(gè)AI應(yīng)用真正落地到具體場景里產(chǎn)生價(jià)值。由此,在走向最終的產(chǎn)業(yè)應(yīng)用之前,“生產(chǎn)”AI應(yīng)用的“產(chǎn)業(yè)鏈條”上也蘊(yùn)含了無數(shù)的商業(yè)機(jī)會。
但是,在數(shù)據(jù)層面,過去多數(shù)人最關(guān)心的只有喂養(yǎng)AI模型的“量”夠不夠用、數(shù)據(jù)的“質(zhì)”夠不夠精準(zhǔn),而現(xiàn)在,數(shù)據(jù)這個(gè)AI“產(chǎn)業(yè)鏈條”的重要環(huán)節(jié)還在進(jìn)一步細(xì)化,專業(yè)的AI數(shù)據(jù)集管理——Al數(shù)據(jù)集的上傳、管理、存儲、分享,正展示出推動高質(zhì)量AI應(yīng)用落地的價(jià)值,例如不久前的2021服貿(mào)會上,原本以高質(zhì)量AI訓(xùn)練數(shù)據(jù)服務(wù)見長于業(yè)內(nèi)的云測數(shù)據(jù),就在其云測數(shù)據(jù)標(biāo)注平臺基礎(chǔ)上發(fā)布了AI數(shù)據(jù)集管理系統(tǒng),要為企業(yè)提供專業(yè)的AI數(shù)據(jù)集管理服務(wù)。
而這個(gè)賽道上不只有云測數(shù)據(jù),多種主體參與的產(chǎn)業(yè)現(xiàn)象正在這里形成,也帶來當(dāng)下人工智能領(lǐng)域重要的創(chuàng)新機(jī)遇。
按下葫蘆浮起瓢, AI數(shù)據(jù)集管理挑戰(zhàn)顯現(xiàn)
誠然,隨著算法模型、技術(shù)理論和應(yīng)用場景的不斷突破,加之“新基建”浪潮下算力基礎(chǔ)設(shè)施的快速建設(shè),AI產(chǎn)業(yè)對數(shù)據(jù)“量”的需求在不斷增長,數(shù)據(jù)量“短缺”一度成為AI產(chǎn)業(yè)鏈條上的瓶頸問題。
但是,這可能并不會持續(xù)很長時(shí)間,嗅到機(jī)會的科技巨頭、創(chuàng)新企業(yè)前些年在數(shù)據(jù)采集與標(biāo)注上廣泛布局,推動合格數(shù)據(jù)的“量”快速增長,這也使得數(shù)據(jù)標(biāo)注行業(yè)作為AI上游基礎(chǔ)產(chǎn)業(yè)在短短數(shù)年間實(shí)現(xiàn)了爆發(fā)式發(fā)展。
有數(shù)據(jù)顯示,2019年、2020年,數(shù)據(jù)標(biāo)注行業(yè)市場規(guī)模為30.9億元、36億元左右,年均復(fù)合增長率20%左右,預(yù)計(jì)到2025年,國內(nèi)數(shù)據(jù)標(biāo)注市場規(guī)模將突破100億元大關(guān)。
這背后,根據(jù)AI數(shù)據(jù)標(biāo)注猿統(tǒng)計(jì)數(shù)據(jù),2020年4月,國內(nèi)數(shù)據(jù)標(biāo)注業(yè)務(wù)相關(guān)公司數(shù)量為565家,2020年12月,數(shù)量增長至705家,2020年4月份到12月份的相關(guān)數(shù)據(jù)標(biāo)注需求公司增量為24.78%,約20萬全職從業(yè)者與約100萬兼職從業(yè)者,正在讓AI產(chǎn)業(yè)走出數(shù)據(jù)荒。
當(dāng)然,AI數(shù)據(jù)也不僅僅來源于數(shù)據(jù)標(biāo)注,互聯(lián)網(wǎng)科技的快速發(fā)展也在助推中國數(shù)據(jù)“供給量”的總體提升,在IDC的報(bào)告中,中國的數(shù)據(jù)量增速比全球快3%,預(yù)計(jì)到2025年將增至48.6ZB,占全球總量的27.8%,年復(fù)合增長率達(dá)30.35%。
但是,量的問題一定程度上解決后,新的問題又冒了出來——如何更高效地利用數(shù)據(jù),發(fā)揮數(shù)據(jù)的價(jià)值。其重要背景,是AI應(yīng)用的開發(fā)方式發(fā)生了從項(xiàng)目制到敏捷開發(fā)的重要轉(zhuǎn)變:
過去AI模型訓(xùn)練以一個(gè)個(gè)項(xiàng)目為主,做完項(xiàng)目、得出一個(gè)預(yù)期質(zhì)量的AI模型后,使用過的數(shù)據(jù)便被“丟棄”;而現(xiàn)在,企業(yè)傾向于持續(xù)把過去已有的數(shù)據(jù)利用起來,逐步形成屬于企業(yè)的數(shù)據(jù)池子,將數(shù)據(jù)在多個(gè)相關(guān)模型開發(fā)中進(jìn)行重復(fù)利用。
這就導(dǎo)致單個(gè)企業(yè)所積累的數(shù)據(jù)量越來越多,而眾所周知數(shù)據(jù)量的增長又以非結(jié)構(gòu)化數(shù)據(jù)為主,企業(yè)所面臨的AI數(shù)據(jù)集管理的挑戰(zhàn)越來越明顯,例如,數(shù)據(jù)量太大,針對特殊的場景缺乏精準(zhǔn)的方式去找到有價(jià)值的數(shù)據(jù);原本數(shù)據(jù)管理凌亂,本地服務(wù)器存一點(diǎn)、云端有一點(diǎn),版本更新不同步,甚至出現(xiàn)一個(gè)Excel表格管理數(shù)據(jù)的現(xiàn)象;數(shù)據(jù)隨意拷貝、傳輸,存在重大的資產(chǎn)損失風(fēng)險(xiǎn)等等。
顯而易見,這時(shí)候,能夠幫助企業(yè)管理好AI數(shù)據(jù),就成了重要的創(chuàng)新機(jī)遇。
到目前為止,有三類不同背景的玩家在加入賽道:
一是原本就向企業(yè)提供數(shù)據(jù)采集與標(biāo)注服務(wù)的廠商,例如開篇提到的云測數(shù)據(jù),這類企業(yè)入局,是AI“產(chǎn)業(yè)鏈條”自然延伸的結(jié)果。
從行業(yè)地位看,在《互聯(lián)網(wǎng)周刊》&eNet研究院、德本咨詢聯(lián)合發(fā)布的《2021數(shù)據(jù)標(biāo)注公司排行》中,云測數(shù)據(jù)憑借最高99.99%精準(zhǔn)度數(shù)據(jù)標(biāo)注能力和場景化訓(xùn)練數(shù)據(jù)方案等,再次排在“數(shù)據(jù)標(biāo)注公司排行”榜首位置,其云測數(shù)據(jù)標(biāo)注平臺4.0能夠?qū)崿F(xiàn)AI數(shù)據(jù)訓(xùn)練綜合效率提升200%。
但是,越是如此,云測數(shù)據(jù)這樣的平臺就越繞不過企業(yè)AI數(shù)據(jù)管理的問題——如果只是提供數(shù)據(jù)、幫助訓(xùn)練效率提升,而不推動企業(yè)“搞定”數(shù)據(jù)管理,隨著企業(yè)面臨數(shù)據(jù)管理的挑戰(zhàn),其商業(yè)模式越往下走就越會越到障礙,這時(shí)候,就只能在已有的技術(shù)和服務(wù)經(jīng)驗(yàn)積累的基礎(chǔ)之上拓展AI產(chǎn)業(yè)鏈條細(xì)化環(huán)節(jié),推出專門的針對AI數(shù)據(jù)集管理的技術(shù)系統(tǒng)——也順勢成為國內(nèi)首個(gè)該領(lǐng)域的系統(tǒng)。
可以說,云測數(shù)據(jù)推出AI數(shù)據(jù)集管理系統(tǒng),既是基于人工智能行業(yè)前瞻性發(fā)展的具象化技術(shù)產(chǎn)品體現(xiàn),為企業(yè)尋找新的發(fā)展空間,也是AI產(chǎn)業(yè)鏈條閉環(huán)的一種倒逼。
其優(yōu)勢在于,作為原來的AI訓(xùn)練數(shù)據(jù)服務(wù)商,借助AI數(shù)據(jù)集管理系統(tǒng),可以以“全生命周期關(guān)注”的姿態(tài)走進(jìn)需求企業(yè),推動企業(yè)從最開始的數(shù)據(jù)獲取到最終的產(chǎn)業(yè)落地全周期效率提升,幫助客戶企業(yè)整體化思考,也契合AI發(fā)展告別項(xiàng)目制走向敏捷開發(fā)的趨勢。而作為原本AI訓(xùn)練數(shù)據(jù)服務(wù)領(lǐng)域的領(lǐng)導(dǎo)者,云測數(shù)據(jù)的智能駕駛、智慧城市、智能家居、智慧金融、新零售等眾多垂直領(lǐng)域的數(shù)據(jù)服務(wù)技術(shù)與經(jīng)驗(yàn)可以很好地橫移到AI數(shù)據(jù)集管理當(dāng)中,在數(shù)據(jù)檢索、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)安全保障等方面有垂直化的經(jīng)驗(yàn)壁壘。
二是互聯(lián)網(wǎng)、科技領(lǐng)域的大廠,它們都具備云計(jì)算方面的數(shù)據(jù)管理基礎(chǔ)稟賦,其入局,是從數(shù)據(jù)管理大賽道延展到AI數(shù)據(jù)集管理小賽道的客觀結(jié)果。
較為典型的是IBM,面向中國市場提供混合數(shù)據(jù)管理系統(tǒng),“利用數(shù)據(jù)管理驅(qū)動AI”是官方宣稱的重要價(jià)值之一,例如其IBM Cloud Pak for Data,產(chǎn)品功能是幫助企業(yè)收集、組織和分析數(shù)據(jù),“以實(shí)現(xiàn)有影響力的AI”,而其實(shí)現(xiàn)主要包括在容器化的環(huán)境中運(yùn)行IBM Db2 Warehouse等——不需要知道這是什么,只要知道這些原本就用于云計(jì)算數(shù)據(jù)管理即可。
其他如從事數(shù)據(jù)標(biāo)注的百度、阿里等,其云計(jì)算中都或多或少包含AI數(shù)據(jù)集管理的能力,只不過并非專門的系統(tǒng),這類企業(yè)的優(yōu)勢在于,原本的數(shù)據(jù)管理往往會積累一定的基礎(chǔ)客戶量,在品牌上也有大廠背書。
三是“白手起家”,直接切入賽道的創(chuàng)新企業(yè),這類企業(yè)以尋找商業(yè)機(jī)會為直接目標(biāo)。
例如來自上海的格物鈦,主要提供面向機(jī)器學(xué)習(xí)的數(shù)據(jù)管理SaaS產(chǎn)品,支持企業(yè)進(jìn)行海量數(shù)據(jù)托管,宣稱要提供“人工智能基礎(chǔ)設(shè)施”,該企業(yè)目前得到了紅杉、云啟、真格以及風(fēng)和資本的千萬美金Pre-A輪融資,這從側(cè)面反映了AI數(shù)據(jù)集管理的價(jià)值潛力。
這類企業(yè)的優(yōu)勢在于輕裝上陣,在資本的青睞和支撐下似乎可以把產(chǎn)品做得更精細(xì)化,當(dāng)然,它們的出現(xiàn),也意味著后續(xù)將有更多過去與AI數(shù)據(jù)集沒有“淵源”的創(chuàng)新企業(yè)加入,這個(gè)賽道會越來越熱鬧。
標(biāo)準(zhǔn)化的四個(gè)維度, AI數(shù)據(jù)集管理挖掘AI產(chǎn)業(yè)鏈細(xì)化環(huán)節(jié)的創(chuàng)新價(jià)值
從具體做法來看,不管什么來路,做AI數(shù)據(jù)集管理,無非都包括標(biāo)準(zhǔn)化的四個(gè)維度,只不過實(shí)現(xiàn)方式各不相同。
首先,是便捷的數(shù)據(jù)檢索和利用。
量大且非標(biāo)準(zhǔn)化,池子還在不斷擴(kuò)大,于是方便的檢索和利用就成為AI數(shù)據(jù)集管理的核心任務(wù)。
這方面,IBM使用了開放式平臺上的自動容器化功能,通過架構(gòu)優(yōu)勢來讓數(shù)據(jù)收集和管理變得更加簡單智能,易于訪問;而云測數(shù)據(jù)等企業(yè)都采用的是清晰化的標(biāo)簽與屬性體系讓工程師可以快速找到想要的數(shù)據(jù)。
值得一提的是,云測數(shù)據(jù)的AI數(shù)據(jù)集管理系統(tǒng)還適配了多數(shù)的公開、開源數(shù)據(jù)集格式,這使得企業(yè)無論是從外部獲得數(shù)據(jù)(這種情況十分普遍)還是自己花錢采集與標(biāo)注得到的數(shù)據(jù),都能得到統(tǒng)一的管理。
此外,數(shù)據(jù)的“可讀性”也是衡量AI數(shù)據(jù)集管理系統(tǒng)能力的關(guān)鍵指標(biāo),在數(shù)據(jù)篩選出來后還能將數(shù)據(jù)還原,能有效幫助AI開發(fā)過程實(shí)現(xiàn)精細(xì)化(圖:云測數(shù)據(jù)-AI數(shù)據(jù)集管理系統(tǒng)數(shù)據(jù)可視化界面):
一方面,這類可視化功能可以幫助AI開發(fā)工程師直接查看數(shù)據(jù)最開始的狀況,更容易理解數(shù)據(jù);另一方面,如果工程師有新的數(shù)據(jù)需求,也可以通過可視化的方式進(jìn)行精確化的數(shù)據(jù)調(diào)校。
然后,是日常管理和使用的便捷性、安全性。
本質(zhì)上,AI數(shù)據(jù)集管理是企業(yè)AI開發(fā)工作流程在信息化方面的一種體現(xiàn),作為重要的工作對象和企業(yè)資產(chǎn),企業(yè)層面的流程規(guī)范必須在AI數(shù)據(jù)集管理系統(tǒng)中得到遵守。
所以,可以看到,格物鈦在系統(tǒng)中做到了數(shù)據(jù)的查看、編輯、使用和管理權(quán)限分離,來保障數(shù)據(jù)的訪問安全;而云測數(shù)據(jù)則強(qiáng)調(diào)多團(tuán)隊(duì)協(xié)作與數(shù)據(jù)資產(chǎn)化管理同步進(jìn)行,提供多團(tuán)隊(duì)數(shù)據(jù)使用權(quán)限分配、存儲空間限定、使用日志記錄等功能,企業(yè)可以根據(jù)實(shí)際需要靈活配置權(quán)限,這種做法能保證數(shù)據(jù)版本、工作協(xié)同的效率,且“數(shù)據(jù)失竊”、“刪庫跑路”等資產(chǎn)損失事件將最大程度規(guī)避。
再有,是對企業(yè)自主擴(kuò)展的支持。
一般而言,AI數(shù)據(jù)集管理都是與企業(yè)AI開發(fā)全流程緊密融合的,企業(yè)往往要將這套系統(tǒng)進(jìn)行擴(kuò)展以更好地滿足上下游業(yè)務(wù)需求,而由于不同行業(yè)、企業(yè)的情況各不相同,服務(wù)廠商不太可能提供一個(gè)能夠支持所有企業(yè)都將AI數(shù)據(jù)集管理系統(tǒng)與企業(yè)上下游業(yè)務(wù)實(shí)際相融合的標(biāo)品方案。
這時(shí)候,將系統(tǒng)做得很有擴(kuò)展性,盡可能基礎(chǔ)化、通用化,并支持企業(yè)自主開發(fā)擴(kuò)展就變得很重要,可以看到,云測數(shù)據(jù)提供了有Python SDK、CLI和API等開發(fā)工具,讓企業(yè)可以根據(jù)業(yè)務(wù)需要,持續(xù)集成數(shù)據(jù)輸入、輸出訓(xùn)練、數(shù)據(jù)迭代等業(yè)務(wù)場景。
最后,是部署成本的節(jié)約。
這是很多企業(yè)選擇AI數(shù)據(jù)集管理系統(tǒng)的重要決策依據(jù)。
由于公有云、私有云的發(fā)展,這方面的邏輯已經(jīng)變得比較簡單,越是彈性化、包容性強(qiáng)的方案,越可能實(shí)現(xiàn)恰當(dāng)?shù)某杀局С?,典型如云測數(shù)據(jù)就十分強(qiáng)調(diào)其“靈活易擴(kuò)展的混合存儲支持”的特性,支持根據(jù)數(shù)據(jù)安全級別、使用頻率、使用方式等對數(shù)據(jù)集分級管理,讓企業(yè)可以“在安全和經(jīng)濟(jì)上靈活選擇”。
總體而言,AI數(shù)據(jù)集管理系統(tǒng)需要照顧的企業(yè)需求已經(jīng)固定,剩下的是入局的玩家如何根據(jù)自身優(yōu)勢各顯神通、挖掘更深度的商業(yè)價(jià)值了。
結(jié)語
服貿(mào)會上,云測數(shù)據(jù)在推出其AI數(shù)據(jù)集管理系統(tǒng)時(shí),特地強(qiáng)調(diào)了“采、標(biāo)、管、存一站式服務(wù)”,回過頭來看,這固然是個(gè)體廠商在強(qiáng)調(diào)自身的獨(dú)特優(yōu)勢,但從行業(yè)角度而言,也某種程度上說明了AI數(shù)據(jù)集管理的最根本意義是讓AI在最終落地前形成標(biāo)準(zhǔn)化的產(chǎn)業(yè)鏈條,所謂AI應(yīng)用的“工業(yè)化大生產(chǎn)”能夠從最初的“原料”到最后的“成品”實(shí)現(xiàn)全鏈條打通,而這,通常是一個(gè)行業(yè)走向成熟的重要標(biāo)志。
一旦“產(chǎn)業(yè)鏈條”走向完善,AI訓(xùn)練數(shù)據(jù)將不只有在采集標(biāo)注時(shí)精確度提升,其價(jià)值也將得到充分挖掘??傮w來看,AI應(yīng)用開發(fā)的質(zhì)量、效率都將得到提升,而最終成本將會下降,所謂的“提質(zhì)、增效、降本”三位一體的企業(yè)理想或也將最終得以實(shí)現(xiàn)。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 一半是產(chǎn)品,一半是服務(wù),華為品牌帶給消費(fèi)者的有贊嘆更有溫暖
- 在人群里,看見「鯤鵬開發(fā)者」
- 游戲體驗(yàn)天花板,一加 Ace 5 系列售價(jià) 2299 元起
- 為創(chuàng)意和管理提效,新廣告投放(3.0)驅(qū)動消費(fèi)品商家高效增長
- 榮耀Magic7系列全面升級大王影像,首發(fā)AI超級長焦拍遠(yuǎn)更清晰
- 2024過去了,留下十個(gè)科技記憶
- 年貨節(jié)如何大爆單?別錯(cuò)過巨量千川這三波紅利
- 美國無人機(jī)禁令升級?當(dāng)?shù)乜茖W(xué)家率先“喊疼”:我們離不開大疆
- iQOO Neo10 Pro:性能特長之外,亦有全能實(shí)力
- 自動駕駛第一股的轉(zhuǎn)型迷途:圖森未來賭上了AIGC
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。