開玩笑的時(shí)候,小雪說她的男友是AI產(chǎn)業(yè)中工資最低的那個(gè),其次就是她自己。
剛從濟(jì)南德州信息工程學(xué)校計(jì)算機(jī)專業(yè)畢業(yè),小雪和男友正在接受手寫體錄入培訓(xùn),當(dāng)她能認(rèn)識這些手寫字母后,就輪到她把這些知識教給計(jì)算機(jī)——把一張張快遞單或家譜上的手寫體上的字母標(biāo)注出來,告訴機(jī)器i可以有多種寫法。
這樣的工作并不簡單。手寫的i可能是頂上一點(diǎn)加上一豎,也可能是朝后彎的小勾,更潦草一點(diǎn)就和數(shù)字9一樣……小雪的筆記本上密密麻麻地?cái)D滿了這些像字更像圖的墨跡。
小雪做的,是一種介于手寫錄入和圖像標(biāo)記之間的工作。同服務(wù)于智能駕駛的街景標(biāo)記、服務(wù)于智能醫(yī)療的人體標(biāo)記、服務(wù)于語音交互的聲音標(biāo)記一樣,他們共同的行業(yè)學(xué)名叫做“人工智能數(shù)據(jù)標(biāo)注”——這是整個(gè)AI產(chǎn)業(yè)的基礎(chǔ),是機(jī)器感知現(xiàn)實(shí)世界原點(diǎn)。
和小孩一樣,機(jī)器要認(rèn)識“蘋果”,就需要不斷有人教給它哪些東西是蘋果:渾圓的、帶把的、有的像桃心有的像屁股,有的通紅有的油綠。和小孩不同的是,機(jī)器需要在不同場景、不同角度下反復(fù)學(xué)習(xí),這個(gè)漫長的教授過程就是小雪在AI產(chǎn)業(yè)中的位置,標(biāo)注大量用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù),讓機(jī)器越來越像“人”。
無差別的人力,和天壤之別準(zhǔn)確度
如果小雪標(biāo)注犯錯(cuò),最直接的后果是機(jī)器也會跟著犯錯(cuò)。她必須保證“喂”給機(jī)器的標(biāo)注數(shù)據(jù)達(dá)到90%以上精度(即是指標(biāo)注的正確率),否則這些數(shù)據(jù)對于機(jī)器學(xué)習(xí)將毫無意義。北京一家數(shù)據(jù)標(biāo)注工廠BasicFinder的CEO杜霖說:95%以上的準(zhǔn)確率是理想情況;但從95%提到97%所需花的成本就不再是一兩倍了,可能是10倍或100倍。
98%精度是小雪遇到過的最高需求,這意味著如果100個(gè)點(diǎn)里頭有兩個(gè)點(diǎn)不準(zhǔn)的話,就會被打回重做。她“提心吊膽”地對每個(gè)標(biāo)注點(diǎn)反復(fù)確認(rèn)才敢提交。但15骨骼點(diǎn)標(biāo)注又極耗耐心,要在人全身包括頭頂、脖子、胸口、膝蓋等骨骼處打上15個(gè)點(diǎn),將這15個(gè)點(diǎn)連起來就出現(xiàn)了一個(gè)形象的火柴人。在Kinect體感游戲中,機(jī)器就是靠關(guān)鍵骨骼點(diǎn)的位移來識別人體是否運(yùn)動(dòng)。
令小雪最郁悶的,是一張軍姿站圖。只要露出了頭、脖子、胸口,小雪就要從他的左上角開始畫矩形,框住這些動(dòng)作、著裝完全一致的人。重復(fù)拖動(dòng)近40個(gè)框后,她要再放大這些帶有藍(lán)色陰影矩形框,從頭到四肢標(biāo)注完每個(gè)人的骨骼點(diǎn)。最后,將近600個(gè)點(diǎn)密密麻麻地落在了這張圖里。
在這個(gè)她形容為“經(jīng)歷絕望”的過程中,她嘗試用眼藥水來緩解疲勞,但滴過后會不停流眼淚,直到她換了種方式,靠不停揉眼睛來放松。杜霖說:有些任務(wù)圖上密密麻麻的點(diǎn),看兩個(gè)小時(shí)以上眼睛絕對會花掉了,但他會要求員工不斷克服人本身的一些“消極因素”,才能避免標(biāo)錯(cuò)數(shù)據(jù)成為“漏網(wǎng)之魚”。
聯(lián)合國教科文組織信息與傳播知識社會局主任英德拉吉特·班納吉認(rèn)為,到2030年,人工智能將向世界經(jīng)濟(jì)貢獻(xiàn)16萬億美元。從2016年人工智能逐漸走熱以來,任何行業(yè)都想搭上這個(gè)熱潮,投資人的評價(jià)是“每個(gè)商業(yè)計(jì)劃書上都要加上人工智能”。進(jìn)入深度學(xué)習(xí)“死胡同”的人工智能需要標(biāo)注的領(lǐng)域也帶來越來越多:機(jī)場安檢時(shí)新增的人臉識別、能識別選取商品的無人便利店、能安全行駛的無人駕駛等。
新興市場帶來了大量勞動(dòng)力的涌入?!霸瓉砀商詫毸蔚模F(xiàn)在也能搖身一變做AI數(shù)據(jù)標(biāo)注。”杜霖說,“在提供無差別人力勞動(dòng)這件事上,大家是沒有門檻的?!?/p>
在河北衡水,由于當(dāng)?shù)卣槲廴緡?yán)重導(dǎo)致化工制品停產(chǎn),26歲的小蘇就帶著原先30多人的銷售團(tuán)隊(duì)轉(zhuǎn)行數(shù)據(jù)標(biāo)注,隊(duì)員小的到20出頭,老至年近不惑。雖然他早就知道河北做數(shù)據(jù)標(biāo)注的團(tuán)隊(duì)已經(jīng)非常多,并且有的團(tuán)隊(duì)已經(jīng)垮掉,但人工智能的火熱和數(shù)據(jù)標(biāo)注的低門檻還是讓他決定一搏。
高中學(xué)歷是小蘇在招人時(shí)的最高期望,“高中生花一天做的工作,初中生可能需要花五天,差別很大?!毙袠I(yè)中,小蘇的招聘標(biāo)準(zhǔn)已經(jīng)算是較高水平,那些投身數(shù)據(jù)標(biāo)注的兼職者學(xué)歷更加良莠不齊。在某些眾包平臺上,有的標(biāo)注者只有小學(xué)文憑,在東北還有一部分有聽力障礙的殘疾人標(biāo)注團(tuán)隊(duì),而北京的全職工廠中的最高學(xué)歷是大?;蛘咧袑?。
欣博友數(shù)據(jù)標(biāo)注公司職員周京平認(rèn)為,一個(gè)老農(nóng)民在標(biāo)注方言語音時(shí)可能會比不使用這種語言的大學(xué)生還好。同所有的人力密集型產(chǎn)業(yè)一樣,人人都能在此覓得一份營生。
人工智能專業(yè)方向的碩士生毛毛認(rèn)為,能不能達(dá)到理想標(biāo)注精度和學(xué)歷沒什么關(guān)系,而且操作非常簡單,只要教一下,誰都能做。她也曾做過兼職數(shù)據(jù)標(biāo)注,在所給的圖片中她需要辨別出不同角度的花菜、菠菜等。一星期后,她標(biāo)注了一萬張圖,沒有一張返工,每張報(bào)酬一毛錢。但她“打死也不會再做這個(gè)工作了”,因?yàn)椤皩?shí)在太重復(fù)”。
看似簡單的操作,要達(dá)到90%的精度對于大多數(shù)標(biāo)注者來講卻是天方夜譚。小蘇所接觸到的兼職標(biāo)注團(tuán)隊(duì)最高精度只能達(dá)到70%,即便是在全職和全把控的情況下,他們第一次項(xiàng)目只達(dá)到了50%的精度,基本上承接的每個(gè)項(xiàng)目他們都需要重復(fù)三次以上才能達(dá)到90%的精度。
如果用于訓(xùn)練模型的數(shù)據(jù)精度低于90%,就像小孩兒拿到的一年級數(shù)學(xué)課本里頭寫的是一加一等于三。一開始就教錯(cuò),機(jī)器學(xué)習(xí)和人工智能就只剩下指鹿為馬。
數(shù)字富士康
2014年冬天,山東蓬萊積起了厚厚的雪。小雪每天都要不情愿地鉆出被窩,趟著大雪走到一家汽車工廠去插線。在固定工位站好后,她根據(jù)形狀將面前充滿不同插口的集成器及一堆接口各異的汽車線路一一匹配好,完成后迅速將其交給下一個(gè)人,再重復(fù)剛才的動(dòng)作,直到下班。小雪知道,自己站一整天的工作只是整個(gè)工廠里頭很小的一部分。
相比那年冬天,她更喜歡現(xiàn)在的工作,數(shù)據(jù)標(biāo)注工廠里,她有接近兩百個(gè)同事,大家能坐在屬于自己的工位上干活。在給用于智能駕駛采集的圖片做標(biāo)注時(shí),小雪需要選取一個(gè)可以畫出2D框的標(biāo)注工具(即是可以根據(jù)不同物體拖動(dòng)出不同形狀的畫框),把圖片中所有的機(jī)動(dòng)車、非機(jī)動(dòng)車、行人、紅綠燈等標(biāo)注出來。
同在汽車工廠流水線上的工作相比,眼前的鍵盤鼠標(biāo)顯示器替代了嗡嗡作響的流水線,從早上8點(diǎn)到晚上5點(diǎn),小雪除了拽動(dòng)鼠標(biāo)外什么都不用想,重復(fù)一個(gè)動(dòng)作就行,變化的只有眼前不同的圖片——但這對小雪來說,工作中的新鮮感已經(jīng)足夠。
有的人說數(shù)據(jù)標(biāo)注工廠就像富士康一樣。北京另一家數(shù)據(jù)標(biāo)注公司瑪達(dá)科技公司CEO任樹亮則直言不諱,數(shù)據(jù)這一塊往往給人印象就是一個(gè)勞動(dòng)密集型產(chǎn)業(yè)。某自動(dòng)駕駛創(chuàng)業(yè)公司數(shù)據(jù)標(biāo)注負(fù)責(zé)人經(jīng)常私底下開玩笑說,這就是個(gè)“血汗工廠”。
目前的數(shù)據(jù)標(biāo)注工廠,多集中在河北、河南、山東、山西等地區(qū),這同以富士康為代表的傳統(tǒng)人力密集企業(yè)的選址偏好重合度極高——以更低廉的勞動(dòng)力成本支撐起聚集在首都的人工智能底層數(shù)據(jù)需求。杜霖介紹說,由于高昂的成本絕不能讓北京去做最終的生產(chǎn),而是做所有新任務(wù)來時(shí)的磨合測試以及最終的質(zhì)量控制。生產(chǎn)任務(wù)最終還是落到周邊城市。
只有招募像毛毛一樣的大學(xué)生做兼職標(biāo)注時(shí),眾包工廠能開出一張圖1毛錢“高價(jià)”。任樹亮對這樣的定價(jià)有些吃驚,“我們還有按厘算的呢。”在一堆不同圖片中識別某人是否是同一個(gè)人,這樣的工作只能按厘算,不過也有從幾十塊錢到上百塊錢報(bào)價(jià)的復(fù)雜標(biāo)注圖。杜霖說,圖片的差異比較大,以工時(shí)來計(jì)算可能更準(zhǔn)確,現(xiàn)在甲方公司至少應(yīng)該給到30塊錢每小時(shí)才能保質(zhì)保量完成。
小雪挺滿意現(xiàn)在的待遇,“之前的工作太累又掙不到錢”。現(xiàn)在公司包吃包住,提供四人間寢室,一個(gè)月到手的工資有4000-5000塊,還可以和男朋友一同上下班。最近一段時(shí)間,工期趕得很急,小雪已經(jīng)連續(xù)兩個(gè)周末到公司加班,從早到晚地盯著顯示器讓她倍感疲憊,但她不想停下,基礎(chǔ)加計(jì)件的工資構(gòu)成總是多勞多得。
和傳統(tǒng)生產(chǎn)流水線不同的是,在杜霖的工廠里,工作流程被設(shè)置為可實(shí)時(shí)切換:每期作業(yè)都不同,每期作業(yè)里頭的每個(gè)任務(wù)也不相同。在一個(gè)小時(shí)的工作間隔里,小雪會碰到兩個(gè)相同的標(biāo)注任務(wù),當(dāng)兩次標(biāo)注結(jié)果差別較大時(shí),就證明她已經(jīng)疲勞了,這是,系統(tǒng)就會切換一個(gè)完全不同的任務(wù)交給小雪操作,以保持員工的“清醒”和“新鮮”,最終達(dá)成杜霖宣稱的準(zhǔn)確率。
算上合作的周邊工廠,杜霖的公司已經(jīng)有2000多人,他們正在同時(shí)進(jìn)行著20多個(gè)不同項(xiàng)目的標(biāo)注。在這樣一個(gè)人力密集型行業(yè)里存活下來,并且保障交付的數(shù)據(jù)達(dá)到90%的精度,他堅(jiān)信,管理才是關(guān)鍵。
管理,管理,以及管理
林霞是小雪的直接管理者,她是老板杜霖最信任的人,已經(jīng)有18年類似的工作經(jīng)驗(yàn)。當(dāng)接到一個(gè)新項(xiàng)目時(shí),她要確定整個(gè)項(xiàng)目流程。前段時(shí)間,林霞拿到了一個(gè)智能駕駛的標(biāo)注項(xiàng)目,里頭既有夜間拍攝的圖片也有白天的圖片,為了保證標(biāo)注質(zhì)量林霞就決定讓能力強(qiáng)一點(diǎn)的員工做夜晚圖片的標(biāo)注,而能力弱一些的就標(biāo)注白天拍攝的圖片。這是第一步,分析客戶給到的圖像,如果是涉及到對人的標(biāo)注,要分析給到的圖片包里單人和多人的圖片各占多少,明確需要標(biāo)注的工作量大概多大。
分析完后,她會將具體的標(biāo)注任務(wù)分配給手下的員工。可能一些人擅長標(biāo)注道路場景,而另一部分人更擅長標(biāo)注骨骼點(diǎn),稍有難度的標(biāo)注她會交給表現(xiàn)出色的員工,對他們進(jìn)行重點(diǎn)培養(yǎng)。辦公桌右側(cè)的日歷上每一天空白處都畫著提示,如果標(biāo)注進(jìn)度比林霞想像中慢,她就必須留意其中的什么原因。標(biāo)注完成后,最困難的地方就過去了,接下來就是質(zhì)檢、抽檢及合成數(shù)據(jù)交付給甲方公司了。
“統(tǒng)籌安排”是整個(gè)生產(chǎn)過程的核心,所有工作的底線是要按照客戶的要求按時(shí)完工。如果趕工期,林霞會要求手下員工加班,并且緊急調(diào)配人員。會出現(xiàn)一些讓林霞頭疼的員工,平時(shí)精度可能只能做到50%,做出來的全是“廢品”。面對這種情況,林霞會堅(jiān)持讓他換崗,“不行就不能在我這崗位呆著。因?yàn)槲业淖鳂I(yè)他干不了,既浪費(fèi)我時(shí)間又浪費(fèi)他時(shí)間,他還掙不到錢?!?/p>
林霞的這些經(jīng)驗(yàn)為小雪給別人培訓(xùn)打下了基礎(chǔ)。作為公司里比較優(yōu)秀的員工,入職一年后小雪就作為培訓(xùn)老師之一去了河北徐水一居民小區(qū)里,這是她公司的一家合作工廠。這棟紅色外墻的居民樓一層是數(shù)據(jù)標(biāo)注工廠,樓上是老年人活動(dòng)中心。進(jìn)了大鐵門后,有四個(gè)教室般大的工廠里面放著新的臺式電腦。除了部分來兼職的學(xué)生們外,大部分都是些已婚中年人,有的騎自行車十分鐘左右就可以到了,而有的就住在小區(qū)里。
第一次布置任務(wù)時(shí),小雪不想給“學(xué)生們”的心理壓力太大,她只布置了十張標(biāo)注的作業(yè)。但學(xué)生們對于標(biāo)注規(guī)則總有不同的理解,同樣的東西她單獨(dú)給一個(gè)人講過三四遍。給他們練手的骨骼點(diǎn)標(biāo)注圖片里頭,需要先標(biāo)注骨骼點(diǎn)再連線,但有身體特別扭曲的圖像,而規(guī)則里頭明確要求左肩和左胯在同一水平面上。那些拿不定主意的學(xué)生,會像小學(xué)生面對著自己的老師一樣,反復(fù)向小雪求助和確認(rèn)。
不清楚標(biāo)注規(guī)則既影響標(biāo)注速度又影響標(biāo)注質(zhì)量。同樣的一條眉毛,客戶給的標(biāo)準(zhǔn)是將其劃分成平眉和挑眉,但“平”和“挑”的定義,幾乎人人不同。一輪標(biāo)注下來,一塌糊涂。為了熟悉各個(gè)公司需求文檔中不同的具體規(guī)則,每當(dāng)遇到類似的新項(xiàng)目,林霞都會上手試標(biāo)注。
兩個(gè)星期后,這些偶爾會將左手標(biāo)簽貼在右手上的學(xué)生已經(jīng)掌握了具體的標(biāo)注規(guī)則,可以上崗了。小雪很享受被叫老師的時(shí)候,但還是更喜歡做數(shù)據(jù)標(biāo)注,因?yàn)闃?biāo)注不費(fèi)心,檢查要承受被用戶打回來返工的壓力,壓力更大。
對甲方公司來講,誰來標(biāo)注、如何管理這些都不是他們需要擔(dān)心的問題,成本和按時(shí)保質(zhì)交付才是核心。用智能程序覆蓋城市低速場景的酷哇機(jī)器人公司目前主要跟杭州一些高校合作,學(xué)生是標(biāo)注主體,采用這樣的方式可以節(jié)省1/3的成本。曾對接過多次數(shù)據(jù)標(biāo)注的工程師說,只要跟體量比較大的數(shù)據(jù)標(biāo)注公司合作,一般精度和時(shí)間都可以有保障。
AI產(chǎn)業(yè)的源頭和最不會被替代的人
每次回老家,當(dāng)家人問起小雪的工作,她總是先說自己是“數(shù)據(jù)標(biāo)注師”,再往下解釋,說是做和計(jì)算機(jī)相關(guān)一些人臉、骨骼點(diǎn)標(biāo)注工作。但沒人聽得懂,小雪在說什么,家里人就會在此停止追問,并暗暗覺得這是一個(gè)響亮的高科技職位。小雪從來沒有想過自己的工作對于人工智能來說算什么,“只要掙錢就有意義”。
“負(fù)責(zé)靜態(tài)物體檢測/場景識別/OCR文字識別,負(fù)責(zé)人工智能與自動(dòng)作業(yè)探索”這是百度招聘圖像識別與人工智能算法工程師的工作職責(zé)描述,而“扎實(shí)的數(shù)學(xué)基礎(chǔ),掌握C/C++和Python語言,掌握OpenCV,掌握機(jī)器學(xué)習(xí)基本算法……”是對應(yīng)聘者的要求。面對這些“同行業(yè)的同事”,中專文憑的小雪想不明白自己和他們的聯(lián)系究竟為何。
但“小雪們”標(biāo)注的上萬張圖片才是無人駕駛能夠紅燈停、綠燈行的基礎(chǔ)。沒有數(shù)據(jù)的清晰標(biāo)注,深度學(xué)習(xí)的發(fā)展就是巧婦無米。另一家眾包數(shù)據(jù)標(biāo)注公司CEO任樹亮認(rèn)為,人工智能就是盲人摸象,有很多不同的部位,數(shù)據(jù)標(biāo)注也是人工智能產(chǎn)業(yè)里面很重要的環(huán)節(jié),不過容易被認(rèn)為很low。
的確,同人工智能的響亮名號相比,數(shù)據(jù)標(biāo)注幾乎沒有任何技術(shù)門檻。小雪初三時(shí)才第一次學(xué)打字,上中專后才“正式”接觸電腦,而現(xiàn)在她已經(jīng)被老板表揚(yáng)為最出色的幾個(gè)員工之一。踏實(shí)干好現(xiàn)在的工作是小雪從入職以來唯一的想法,這是姥姥的囑咐,讓她給弟弟妹妹做好榜樣。其他人的情緒并不都像小雪一樣穩(wěn)定。有人領(lǐng)到分配的骨骼標(biāo)注圖片后,因?yàn)閳D像里頭人太多就直接不做任務(wù),但資源包被領(lǐng)取后就無法再放回資源池,如果不做,這包圖片就不會有其他任何人能標(biāo)注。而更不靠譜的人還會動(dòng)搖其他員工。
2015年的初秋,吃飽了午飯的小雪坐上數(shù)據(jù)標(biāo)注工廠派來接他們?nèi)肼毜拇蟀蛙?,同行的還有15名將一起畢業(yè)的同學(xué),開往北京的路上,他們嘶吼的歌聲蓋過了車內(nèi)的音響,整整一路,那份一無所知的興奮感延續(xù)到了今天。每當(dāng)聽到人們談?wù)撈鹑斯ぶ悄軙娲肆Φ臅r(shí)候,小雪都覺得不知所云。
“即時(shí)是被替代,數(shù)據(jù)標(biāo)注師也將是最后一批被替代的人?!倍帕匕延^點(diǎn)灌輸給了小雪和她的同事們,這讓他們感受到了莫大的信心和驕傲。只有當(dāng)真正把所有知識都教給老虎,貓才會被吃掉,在此之前老虎的獵物都只會是其他動(dòng)物。作為人工智能的“老師”,他們還要不斷教會人工智能新本事。
某創(chuàng)業(yè)公司對接數(shù)據(jù)標(biāo)注的負(fù)責(zé)人認(rèn)為,商業(yè)競爭才是決定這部分人不會取代的關(guān)鍵因素。每家公司都有自己的數(shù)據(jù)標(biāo)注需求,并且他們暫時(shí)不會公開自己的模型,就像在互聯(lián)網(wǎng)之初大家都不會開源自己的代碼一樣??赡艿侥硞€(gè)節(jié)點(diǎn)大家都公開自己的數(shù)據(jù)、模型后這部分人才會面對失業(yè)的擔(dān)憂。
就算到了人工真正要被取代的那天,杜霖堅(jiān)信她和他的工廠也不會慌張。這位“廠長”正盤算著把他擁有的人力資源復(fù)用到其他領(lǐng)域,比如承接一部分內(nèi)容審核、信息核查的工作,“審核滴滴司機(jī)的駕照是否真實(shí)、微信是否是真的實(shí)名制、頭條新聞是否是涉黃、涉恐”。
對于將來的發(fā)展,小雪還沒想太多。她現(xiàn)在正在學(xué)習(xí)29點(diǎn)的人臉標(biāo)注,每只眉毛上找到三個(gè)需要標(biāo)注的點(diǎn),眼睛上下眼皮各兩個(gè)點(diǎn)、眼珠一個(gè)點(diǎn)外加兩個(gè)眼角的兩個(gè)點(diǎn),共五個(gè)點(diǎn),嘴巴有六個(gè)點(diǎn)……聽完這些規(guī)則后,小雪驚喜地笑了,“一個(gè)人臉就出來了,老形象了,像“彌勒佛”一樣”。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )