AI發(fā)展自驅(qū)動(dòng),這家公司如何用AI成就人工智能里更智能的人工?

2019年,人們?cè)俅握勂鹑斯ぶ悄軙r(shí),最常聊到的便是其如何應(yīng)用。因?yàn)榇蠹倚睦锒记宄?,人工智能要想服?wù)于企業(yè)和社會(huì),必須先從實(shí)驗(yàn)室中走出來,放下它那神秘高貴的外表,腳踏實(shí)地。

然而,就像半導(dǎo)體技術(shù)一樣,在誕生之初,它沒有得到產(chǎn)業(yè)的認(rèn)可,主要是因?yàn)楦甙旱闹谱髻M(fèi)用,一顆電晶體成本高達(dá)10美元,被戲稱作實(shí)驗(yàn)室里的玩具。直到硅提純、精密加工等技術(shù)的發(fā)展,才有了由杰克·基爾比所研發(fā)的現(xiàn)代集成電路,目前10美元可以買數(shù)千萬甚至上億顆電晶體。

人工智能的成本又由何組成呢?它不像芯片一樣擁有明碼標(biāo)價(jià)的BOM,普遍認(rèn)為其主要來自于研發(fā)人員及工程師的薪資和服務(wù)器維護(hù),事實(shí)上這個(gè)想法不夠全面。絕大多數(shù)企業(yè)所采取的人工智能技術(shù)名為機(jī)器學(xué)習(xí),需要有脫敏的訓(xùn)練數(shù)據(jù)支撐才得以運(yùn)行。哪怕是實(shí)現(xiàn)Hopfield,也需要遠(yuǎn)超想象的數(shù)據(jù)量,更何況是現(xiàn)如今那些擁有強(qiáng)魯棒性的模型了。

數(shù)據(jù)采集標(biāo)注看起來很簡(jiǎn)單,無非就是拍個(gè)照片標(biāo)個(gè)點(diǎn),但是真正要操作起來卻根本不是那么一回事。首先要想在足夠短的周期內(nèi)采集到足夠的數(shù)據(jù)量,必須要有足夠的人手配置。假若要10萬張人臉表情照片并且要有300個(gè)點(diǎn)需要標(biāo)注,每人每天貢獻(xiàn)20張合格的素材算是一個(gè)較為平均的水平,企業(yè)數(shù)據(jù)采集標(biāo)注團(tuán)隊(duì)擁有50個(gè)人,那么完成這一單生意就需要100天的時(shí)長(zhǎng),也就是3個(gè)多月。

拿到數(shù)據(jù)后再去復(fù)審、訓(xùn)練,到最后功能上線,少說也要將近半年的時(shí)間。這顯然對(duì)不上軟件疊代更新的理念。再加上這些人員的培訓(xùn)組織運(yùn)營(yíng)成本等等,一筆合格的數(shù)據(jù)采集業(yè)務(wù)的交付可能高達(dá)幾萬甚至數(shù)十萬元。這也是為什么會(huì)有一種觀點(diǎn)表示,人工智能不僅不會(huì)替代勞動(dòng)力,反而會(huì)增加就業(yè)。

在海外,率先察覺到由人工智能所催生的新一片藍(lán)海——數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注,最早由Appen為代表,后來隨著MightyAI、Scale這樣的公司出現(xiàn),逐漸走向穩(wěn)定。這個(gè)爆發(fā)點(diǎn)大約是在2016年,諸如后者這樣的公司,均是在2015、2016這兩年間出現(xiàn)的。而就在最近,Scale AI創(chuàng)始人,華裔22歲青年Alexandr Wang宣布獲得1億美金C輪融資,公司估值超10億美金,成為硅谷新晉獨(dú)角獸。

反觀國(guó)內(nèi),人工智能的浪潮其實(shí)要比國(guó)外更為洶涌,然而專業(yè)從事數(shù)據(jù)采集標(biāo)注的公司發(fā)展卻比較滯后。即便是有幾家相關(guān)的公司,卻多半為自營(yíng)狀態(tài),和海外服務(wù)眾多AI企業(yè)的平臺(tái)模式截然相反。當(dāng)然,誰都是吃客單生意的,不同并不代表做錯(cuò)了。

國(guó)內(nèi)有一家公司名為龍貓數(shù)據(jù),是國(guó)內(nèi)首家以眾包的形式運(yùn)營(yíng)采集標(biāo)注業(yè)務(wù)的。眾包形式的好處就在于人員調(diào)用足夠充沛,相較于傳統(tǒng)的員工制,眾包形式更為靈活。同時(shí),淡季的時(shí)候也不用支付員工薪資,減輕了運(yùn)營(yíng)成本。

但是眾包形式的缺點(diǎn)在于用戶管理,數(shù)據(jù)采集成員和龍貓之間并沒有勞務(wù)合同,只有平臺(tái)運(yùn)營(yíng)規(guī)范作為制約。龍貓數(shù)據(jù)因此采取了精細(xì)化管理的方式,對(duì)用戶進(jìn)行能力畫像,將不同用戶分配到多個(gè)不同環(huán)節(jié),包括數(shù)據(jù)采集和標(biāo)注、數(shù)據(jù)審查等等。

為了提高數(shù)據(jù)產(chǎn)出的質(zhì)量與效率,配合龍貓數(shù)據(jù)的眾包模式和精細(xì)化用戶運(yùn)營(yíng),龍貓數(shù)據(jù)采用了預(yù)標(biāo)注工具和人機(jī)交叉數(shù)據(jù)驗(yàn)證這兩種措施。前者是指,龍貓眾包平臺(tái)的AI工具會(huì)先對(duì)需要標(biāo)注的數(shù)據(jù)進(jìn)行預(yù)標(biāo)注,然后再由標(biāo)注人員對(duì)預(yù)標(biāo)注結(jié)果進(jìn)行微調(diào);后者則指的是龍貓數(shù)據(jù)會(huì)對(duì)標(biāo)注好的數(shù)據(jù)進(jìn)行機(jī)器和人的雙重交叉審核,加上合理數(shù)量的抽檢,最終滿足數(shù)據(jù)交付的要求。

借用眾包的模式,從任務(wù)發(fā)布到數(shù)據(jù)交付,這樣一個(gè)流程下來,即便是幾十萬數(shù)據(jù)規(guī)模的大單,短短一兩周也就能搞定。

龍貓數(shù)據(jù)也有頭疼的地方,他們有一個(gè)客戶是全球非常知名的通信設(shè)備商。根據(jù)GDPR的規(guī)定,凡是消費(fèi)到GDPR所保護(hù)地區(qū)的產(chǎn)品,必須要遵守相關(guān)規(guī)定。這也就使得龍貓?jiān)跀?shù)據(jù)采集時(shí)也要合乎GDPR的標(biāo)準(zhǔn)。為此,龍貓招納了深入了解GDPR的相關(guān)人士。

人工智能飛速發(fā)展為數(shù)據(jù)行業(yè)帶來了大量不同的基礎(chǔ)數(shù)據(jù)需求,龍貓數(shù)據(jù)的客單總體分為兩類:采集標(biāo)注過的數(shù)據(jù)和沒有采集標(biāo)注過的數(shù)據(jù)。已有的數(shù)據(jù)再次采集標(biāo)注是一種資源浪費(fèi)。于是龍貓數(shù)據(jù)推出了一項(xiàng)數(shù)據(jù)商城服務(wù),即用戶可直接在商城中購(gòu)買已經(jīng)存在的數(shù)據(jù)集,以便快速拿到數(shù)據(jù)。當(dāng)然了,數(shù)據(jù)商城的數(shù)據(jù)在復(fù)售前都會(huì)與客戶簽訂一定的協(xié)議,已保證龍貓數(shù)據(jù)依然合法享有這批數(shù)據(jù)的銷售權(quán)。

類似于知識(shí)產(chǎn)權(quán),數(shù)據(jù)在銷售以后還是存在的,也就是說某一企業(yè)在購(gòu)買數(shù)據(jù)后,它可以將其復(fù)制給其他公司。相當(dāng)于多個(gè)企業(yè)只要買一份數(shù)據(jù)就能完成所有的訓(xùn)練了,在經(jīng)濟(jì)學(xué)的角度來講,哪怕是購(gòu)買方銷售了一次數(shù)據(jù),這對(duì)于龍貓數(shù)據(jù)來說都是一種損失。區(qū)塊鏈或許是一種解決辦法,不過當(dāng)下,龍貓把注意力放在了另一件事上。

龍貓數(shù)據(jù)將自己目前的發(fā)展分為了三個(gè)層次,第一層次為龍貓1.0,即數(shù)據(jù)標(biāo)注工具集合。1.0時(shí)期,龍貓開發(fā)了基于視覺、音頻、文本這三大領(lǐng)域的標(biāo)注工具,用于對(duì)數(shù)據(jù)進(jìn)行手動(dòng)處理,以服務(wù)于機(jī)器學(xué)習(xí)的訓(xùn)練。第二層為龍貓2.0,在這段時(shí)間里,龍貓開始從整體流程上對(duì)數(shù)據(jù)采集標(biāo)注進(jìn)行優(yōu)化,實(shí)現(xiàn)了從接到需求到完成需求的全過程自動(dòng)化管理,其中非常重要的一部分是對(duì)數(shù)據(jù)采集標(biāo)注任務(wù)的細(xì)化拆分,將一個(gè)復(fù)雜的任務(wù)細(xì)化拆分成顆粒度極小的需求,極大提升了需求滿足的時(shí)間。

2019年,龍貓數(shù)據(jù)進(jìn)入了3.0時(shí)期,開發(fā)AI預(yù)標(biāo)注工具。目前這種預(yù)標(biāo)注工具主要應(yīng)用在視覺層面,而音頻和文本這兩項(xiàng)業(yè)務(wù)應(yīng)用較少。龍貓數(shù)據(jù)3.0所代表的是全面采用預(yù)標(biāo)注技術(shù)和工具,能夠讓所有數(shù)據(jù)采集標(biāo)注人員都能使用,從而提高效率,對(duì)于龍貓數(shù)據(jù)來說,這種工具的應(yīng)用能夠極大縮短交付周期。

龍貓數(shù)據(jù)3.0會(huì)持續(xù)一段時(shí)間,隨后便進(jìn)入4.0時(shí)期。在那個(gè)時(shí)期里,龍貓會(huì)全面采用自動(dòng)化標(biāo)注工具,用戶只需要對(duì)采集數(shù)據(jù)和預(yù)標(biāo)注結(jié)果進(jìn)行微調(diào),標(biāo)注及審核、質(zhì)檢工作全面由人工智能所代替。只是這個(gè)道路還較為遙遠(yuǎn),現(xiàn)在不好估量。

然而不難想象的是,未來的數(shù)據(jù)采集公司必須要通過工具和預(yù)標(biāo)注來形成自己的技術(shù)壁壘。采集過程主要依靠人來完成,其規(guī)模和效率主要來自于市場(chǎng)運(yùn)營(yíng)和任務(wù)獎(jiǎng)勵(lì),這也就意味著從采集到產(chǎn)出之間,勞動(dòng)時(shí)間越短,成本也就越少,能夠完成的客單數(shù)量也就越多。

從客戶數(shù)量來看,龍貓現(xiàn)有約200家客戶左右,基于眾包形式的優(yōu)勢(shì),這種數(shù)量級(jí)是合理的。畢竟從外部看,在質(zhì)量合格的前提下,自然會(huì)選擇產(chǎn)品周期最短,價(jià)格最便宜的公司。這種模式也造就了龍貓數(shù)據(jù)客戶復(fù)購(gòu)量大,核心客戶客單價(jià)高的局面。

從內(nèi)部看,龍貓數(shù)據(jù)的模式?jīng)]有大幅度變更,反倒是流程發(fā)生了變化,最根本的原因還是在于工具的進(jìn)化。同時(shí),龍貓自3.0時(shí)期開始也不再是一家傳統(tǒng)的數(shù)據(jù)采集標(biāo)注公司,而是一家人工智能公司。

或許他們想要的是從數(shù)據(jù)基礎(chǔ)服務(wù)到人工智能的發(fā)展轉(zhuǎn)變,由單純的AI數(shù)據(jù)服務(wù)延伸到細(xì)分領(lǐng)域整體AI落地。借助AI的力量,將人工智能里最需要人工的部分解放出來,成就人工智能領(lǐng)域最智能的人工。這是他們最擅長(zhǎng)的,畢竟他們是人工智能領(lǐng)域的筑基者,他們也最明白如何用好AI這股強(qiáng)大的原生力量。

“只有退潮了才知道誰沒穿褲衩。”這句話被人們說了無數(shù)次,最早能追溯到豆你玩、姜你軍時(shí)期。無論是VR、O2O、人工智能都是一樣的道理。

話又說回來了,數(shù)據(jù)采集標(biāo)注作為人工智能的上游,它也需要人工智能開發(fā)能力,最終形成了一種閉環(huán)。未來會(huì)怎樣,沒人說得清楚,但是人工智能的未來絕對(duì)不是吹噓自己的算法能有99%的補(bǔ)償、能解決幾百億數(shù)據(jù)量求梯度,而是要從每一比特的數(shù)據(jù)開始積累,直至幾十乃至幾百ZB。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-09-06
AI發(fā)展自驅(qū)動(dòng),這家公司如何用AI成就人工智能里更智能的人工?
2019年,人們?cè)俅握勂鹑斯ぶ悄軙r(shí),最常聊到的便是其如何應(yīng)用。

長(zhǎng)按掃碼 閱讀全文