專注東南亞的領創(chuàng)智信,緣何開始發(fā)力數(shù)據(jù)標注業(yè)務

日前,百度在港交所二次上市,三位素人“敲鐘者”中,來自百度山西數(shù)據(jù)標注基地的年輕媽媽郭梅引起了外界注意,和她一起AI數(shù)據(jù)標注師這個看起來偏“冷門”的職業(yè),也首次為大眾所熟知。其實早在去年2月,它的官方名稱“人工智能訓練師”就已成為新職業(yè),并納入國家職業(yè)分類目錄,它是AI技術廣泛應用所催生的新崗位。

百度為了做好二次上市這場“大戲”,包括郭梅的敲鐘三素人都大有來頭,從身份上來講他們都和AI密切關聯(lián)。數(shù)據(jù)標注師為何重要呢?打個淺顯的比喻,如果人工智能是一條高速公路,那數(shù)據(jù)標注就是這條高速公路的基石,而數(shù)據(jù)標注師就是那群不分日夜夯實基石的幾十萬、上百萬的“鍵盤軍”。

人工智能大踏步的由概念到應用,數(shù)據(jù)標注這一行業(yè)也就被廣為討論。就在之前不久,聚焦亞太市場人工智能與大數(shù)據(jù)的中國出海公司領創(chuàng)智信(ADVANCE.AI)也首次推出數(shù)據(jù)標注業(yè)務,旗下上千人數(shù)的東南亞團隊將開始為國內的人工智能行業(yè)服務。從百度到領創(chuàng)智信,從三四線城市到東南亞地域,隨著中國在AI大國競賽中的提速,圍繞中國人工智能正在形成一個覆蓋廣大地域的產(chǎn)業(yè)生態(tài)圈。

大國AI競賽,數(shù)據(jù)標注緣何重要

科學技術不僅可以改變生活,而且可以改變世界,未來是屬于科技的時代,更是屬于人工智能的時代。據(jù)艾媒咨詢的數(shù)據(jù)預測,2021年全球人工智能市場收入規(guī)模或將達到12140億美元,至2024年這一數(shù)字或達到39410億美元。在這個迅猛的崛起過程中,將需要數(shù)量龐大的數(shù)據(jù)標注師作為支撐。

據(jù)相關統(tǒng)計預測,數(shù)據(jù)標注師與下游研發(fā)端人員需求的比例達到了驚人的1:100,因此數(shù)據(jù)標注行業(yè)也被稱為新時代的“富士康”,足見該行業(yè)人員缺口之巨。

圖片來源:艾媒咨詢

面對如此龐大的潛在市場,包括中美在內的大國之間,早已悄無聲息的開啟了關于AI的競逐賽,美國由于經(jīng)濟基礎較好,所以在人工智能領域處于領先地位,但隨著中國綜合實力的整體提升,很多專家學者預測在不久的將來,中國將會挑戰(zhàn)美國地位爭奪全球AI的NO.1。

這一切并不是空想,至少在科研方面國內并未落后,根據(jù)斯坦福大學人工智能研究所近期發(fā)布的數(shù)據(jù)顯示,2020年AI期刊引用中國的研究論文的數(shù)量已經(jīng)超越了美國。全球去年所發(fā)布的AI期刊論文中,中國占了18%,居次的是美國的12.3%,歐盟則是8.6%。而在最常被引用的論文中,中國首度超越美國,占比20.7%,美國為19.8%,歐盟則是11%。

以上數(shù)據(jù)仍只是局限在研究論文層面,也至少證明了中國人工智能部分領域和美國的差距并沒有太大。

另根據(jù)中國信通院數(shù)據(jù)研究中心的測算,2020年中國人工智能規(guī)模占到全球市場規(guī)模的三成。以此為基數(shù)的話,人工智能未來競爭中,中國并非沒有一戰(zhàn)之力,至少很有機會坐牢全球AI實力榜前三國家的位置。只不過從研究到應用,人工智能比拼的仍是綜合實力。美國人工智能科學技術之所以得以高產(chǎn)、高質,其背后是數(shù)據(jù)標注行業(yè)發(fā)達的功勞。

因為,數(shù)據(jù)標注既是人工智能產(chǎn)業(yè)的基礎,又是機器感知現(xiàn)實世界的起點,可以說數(shù)據(jù)標注是人工智能的發(fā)展“基石”。

人工智能是讓機器具備人類的思維和行為方式,而數(shù)據(jù)標注之所以重要,則因為它通過人類標注正確的數(shù)據(jù)樣本,讓AI機器學習成長的一種方式,從某種程度上來看,沒有經(jīng)過標注的數(shù)據(jù)就是無用數(shù)據(jù)。而數(shù)據(jù)標注的工作目前只能由數(shù)據(jù)標注師來完成的,數(shù)據(jù)標注師們要對世界上如汪洋一般的圖片、語音、文本、視頻等數(shù)據(jù)內容進行標注,充當著人工智能機器的“幼兒教師”,以此來提高人工智能的精準度和智能化水平。

以美國的發(fā)展路線來看,它們的數(shù)據(jù)標注主要是以眾包和海外外包為主,以總部位于澳洲的數(shù)據(jù)標注上市公司為例,其在180多種語言的國家和地區(qū)擁有超過40萬名合同工。該司服務的客戶遍布全球,不少就是來自美國的人工智能企業(yè)。前兩年又先后收購了一家位于美國硅谷的數(shù)據(jù)標注公司,和一家在印度有自己數(shù)據(jù)加工工廠的數(shù)據(jù)標注公司。

另外,如Facebook則將部分數(shù)據(jù)標注工作外包給了印度公司W(wǎng)iPro,后者雇傭了幾百名工人為前者服務。而美國谷歌、微軟、雅虎等科技巨頭,也曾在非洲肯尼亞雇傭了大量的人力來做數(shù)據(jù)標注服務。

美國人力成本高昂,除了部分數(shù)據(jù)標注交給眾包平臺消化,科技巨頭們把更多的業(yè)務外包給了海外地區(qū),這種形式擁有更高的集中性。上面提到的美國人工智能“大廠”們往往需要多種類型數(shù)據(jù),傾向于在第三世界國家地區(qū)尋找一家大型綜合性服務商。這些服務商有較高集成性,通過網(wǎng)絡與全球各地標注人員進行工作分包。

作為IT產(chǎn)業(yè)的起源國和霸主的美國,就是通過海外外包的形式來實現(xiàn)在“IT時代”的領先地位的,而印度則被稱為“美國IT的后花園”。由于印度的勞動力成本較低,官方語言又是英語,整整一代人的時間里,美國科技公司一直將工作外包給印度,因此催生出一種“全球交付模式”,即先去客戶的公司得到他們的要求,回到印度開發(fā)這個軟件,全球交付,最后做一些維護。

此種模式在IT行業(yè)可以跑通,同理在以人工智能為主導的“新IT時代”也正在被復制,從東南亞到非洲崛起的數(shù)據(jù)標注服務產(chǎn)業(yè),正在成為美國在全球范圍內培養(yǎng)的下一個“印度”。

太平洋彼岸的中國,由于政策的傾斜和5G等相關基礎技術的發(fā)展,人工智能產(chǎn)業(yè)也進入快速增長階段。據(jù)相關數(shù)據(jù)顯示,2020年我國新一代人工智能市場規(guī)模預計達到700億元,龐大的市場規(guī)模,也促使我國的數(shù)據(jù)標注行業(yè)進入細分化階段。

在國內,數(shù)據(jù)標注產(chǎn)業(yè)進駐了不少城鎮(zhèn)和農村地區(qū),在一些省份甚至還出現(xiàn)了特色的“數(shù)據(jù)標注村”。隨著出海公司領創(chuàng)智信推出數(shù)據(jù)標注及采集業(yè)務,意味著,中國數(shù)據(jù)標注產(chǎn)業(yè)也意欲在全球范圍內尋找適合自己發(fā)展的“AI后花園”。

人工智能即將到來黃金十年,數(shù)據(jù)標注師缺口將異常龐大。據(jù)阿里巴巴集團調研數(shù)據(jù)顯示,預計僅到2022年,人工智能訓練師國內外相關從業(yè)人數(shù)有望達到500萬,如此來看,人工成本正在快速上升的中國,未來或也會把部分“壓力”向周邊國家地區(qū)外移。

東南亞會是中國“AI后花園”?

中國人工智能的發(fā)展,催生數(shù)據(jù)標注行業(yè)數(shù)百萬人才的缺口。中國相比美國,在人力成本上是存在優(yōu)勢的。正因如此,美國人工智能巨頭和數(shù)據(jù)標注企業(yè)大踏步全球化的時候,中國人工智能企業(yè)卻是三條路并行。

百度、阿里等“大廠”,采取將數(shù)據(jù)標注基地“下放”三五線城市+眾包來解決;而類似領創(chuàng)智信的中國出海企業(yè),也正在東南亞地區(qū)“培育”后備力量。為何出現(xiàn)這種現(xiàn)象?

一、數(shù)據(jù)標注師被調侃,調教AI、月薪三千;數(shù)據(jù)標注師從名字上來看挺“高大上”,可由于是“勞動密集”的職位,他們工資普遍不高,月薪三四千就已經(jīng)算是高薪了。其背后的原因在于,為了讓人工智能更“智能”,需要龐大的人力去對如汪洋一般的各類數(shù)據(jù)進行不同的標注,基于工作的性質和成本考慮,數(shù)據(jù)標注師本身的薪資很難提高。

想要了解數(shù)據(jù)標注行業(yè)的勞動密集程度,可以舉一個小例子,為了“調教”人工智能更準確的識別圖片各類信息,或需要至少10億張圖片進行訓練。怎么樣才可以給這10億張圖片進行分類和打上標簽呢?以一個人每天可以分類1000張圖片來計算,10億張圖片需要一個人干上100萬天,也就是2740年。

圖片來源:艾媒咨詢

包括語言識別、圖像識別、自然語言處理,數(shù)據(jù)標注師們需要使用標注工具通過分類、畫框、標注、注釋等,對圖片、語音、文本等數(shù)據(jù)進行處理,“喂養(yǎng)”它們,以令它們能夠勝任交通、金融行業(yè)、醫(yī)療行業(yè)、家居行業(yè)、安防行業(yè)、公共服務、電子商務等應用場景,這將是個超過人想象的工作量。

這直接決定了數(shù)據(jù)標注師行業(yè)平均薪金不會太高,否則人工智能將因為成本問題,永遠無法落地到實處。

二、“大廠”三五線基地+眾包方式的局限性;開頭提到的百度山西數(shù)據(jù)標注基地,就是百度在山西省太原市建立的人工智能基礎數(shù)據(jù)產(chǎn)業(yè)基地,按照百度的計劃,未來5年,百度還將培養(yǎng)數(shù)據(jù)采集、標注專業(yè)人員5萬人,阿里巴巴在貴州銅仁萬山區(qū)也在做類似的事。即使如此,仍不能完全“消化”大廠數(shù)據(jù)標注的旺盛需求。

阿里旗下就有阿里眾包平臺,僅圖搜測評任務就累計推出了近百萬的任務量,將圖片搜索的準確度從原有的30%提升到80%左右。百度旗下有百度數(shù)據(jù)眾包平臺,官方網(wǎng)站顯示已有1萬名專職外場數(shù)據(jù)采集員,覆蓋40多個國家和地區(qū),遍布全國300+城市。京東旗下的京東眾智,也是類似的平臺。

大廠們之所以都選擇兩條路走,一個原因是在三四線城市打造數(shù)據(jù)標注基地能在成本可控的前提下提供更為穩(wěn)定的服務;然而,由于三四線城市人才普遍學歷不高,另一邊的眾包業(yè)務可以吸納在校學生的“閑散”人力,兩者互為補充。要知道,數(shù)據(jù)標注雖被調侃為新時代的“富士康”,可該職業(yè)仍有不小的上手門檻和技能要求。

東南亞地區(qū)“AI后花園”與中國人工智能產(chǎn)業(yè)的聯(lián)動,正在復刻當年印度與美國硅谷的關系;從上面能夠看到,由于工作量龐大,決定了該職業(yè)無法開出足夠誘人的“工資”。因此,在三四線城市構建數(shù)據(jù)標注基地和面向社會的眾包模式成為大廠解決困難的兩條路。而從領創(chuàng)智信的“出口轉內銷”身上,似乎看到了第三條路,市場對數(shù)據(jù)標注的旺盛需求倒逼下,將該產(chǎn)業(yè)南移到東南亞“消化”也正在進行著。

提起領創(chuàng)智信國內大多數(shù)網(wǎng)友是比較陌生的,這家公司在國內人工智能出海企業(yè)中卻很有名氣,該公司聯(lián)合創(chuàng)始人兼CEO壽棟,是賓州州立大學計算機碩士和清華大學軟件碩士;人工智能產(chǎn)品負責人王芳林,獲得上海交通大學博士學位,并在哈爾濱工業(yè)大學獲得碩士和學士學位,曾擔任過NUS的研究員和Autodesk的研究科學家。

領創(chuàng)智信2016年成立后,先后在新加坡、中國、印度尼西亞、印度、越南、菲律賓設有辦公室,服務超過1000家行業(yè)客戶,于2019年9月完成了8000萬美元的C輪融資,由高榕資本和新加坡淡馬錫控股旗下蘭亭資本參與領投。目前,團隊有2000+名員工,其中有很多就來自騰訊、百度、華為、亞馬遜等曾在互聯(lián)網(wǎng)公司供職的行業(yè)人才。

該公司在東南亞主要聚焦人工智能(e-KYC,智能流程自動化,聊天機器人),風險管理(反欺詐,信用評分)和數(shù)字貸款解決方案三大領域,業(yè)務邊界不斷拓寬,由印尼逐步覆蓋到菲律賓、印度、越南等國家。

去年6月份,其推出的數(shù)據(jù)標注與采集一體化服務,就是根據(jù)市場需求將過去人工智能數(shù)據(jù)標注與采集打包成新的業(yè)務線對外服務,其中包括圖片、語音、對話、文本和視頻數(shù)據(jù)的標注及采集。一方面,該服務面向出海東南亞等各國的中國人工智能企業(yè)服務,一方面也為中國人工智能企業(yè)的外包數(shù)據(jù)標注及采集業(yè)務服務。

不到一年時間,該公司在國內就擁有了不小的名氣。我們知道,美國人工智能產(chǎn)業(yè)正在帶動印度、東南亞甚至非洲等地數(shù)據(jù)標注外包市場,中國似乎也正在走向這個方向,這或是國內旺盛數(shù)據(jù)標注需求獲得解決的另一條出口。

中國AI產(chǎn)業(yè)生態(tài)圈不可忽視的一環(huán)

近年來,中國企業(yè)紛紛進入東南亞市場,借“一帶一路”政策,中國和東盟10國均獲得了有目共睹的經(jīng)濟收益。數(shù)據(jù)顯示,至2016年5月,中國和東盟國家的雙向投資已達1600億美元,雙方貿易額也從1991年的79.6億美元增長至2015年的4721.6億美元。相信未來東南亞地區(qū),將有更多類似領創(chuàng)智信的企業(yè)誕生。

為何這么預測呢?因為就數(shù)據(jù)標注服務的性質來看,東南亞外包模式有它自身的優(yōu)勢在里面。

1、同屬漢文化圈的便利性,東南亞華僑規(guī)模全球第一;不完全統(tǒng)計,東南亞11國,447萬平方千米,6.5億人口,被看作是中國、印度之外的另一個巨大市場。在中國互聯(lián)網(wǎng)企業(yè)全球化浪潮影響下,和“一帶一路”扶持政策的推動下,“下南洋”正成為國內科技公司集體的共識,并且成績斐然。目前東南亞市場上公認的十大獨角獸企業(yè)中,中國企業(yè)通過資本、技術、經(jīng)驗等方式的加持,已經(jīng)牢牢占據(jù)了半壁以上江山。

其實,任何國家企業(yè)進行海外拓展,本土化都是最先需要考慮的問題,內在文化的牽連度越高越容易成功。東南亞地區(qū)與中國接壤,可以說“一衣帶水”,無論文化背景、風俗習慣皆比較相近,與中國一樣過農歷春節(jié)并有法定假期的國家中就包括越南、印尼、新加坡和馬來西亞等。相比于美國、歐洲科技巨頭,中國企業(yè)進行東南亞地區(qū)的拓展具備更多的便利性。

圖片來源:《2019 年東南亞互聯(lián)網(wǎng)趨勢報告》

另外,不完全統(tǒng)計東南亞等國家地區(qū)華僑人數(shù)高達3千多萬左右,是世界上海外華人分布最集中的地區(qū)。這也是中國企業(yè)在該地區(qū)發(fā)展相較順利的原因之一,反過來講,這些優(yōu)勢也使得該地區(qū)成為中國初級產(chǎn)業(yè)鏈外移的首選地。

2、成本優(yōu)勢;根據(jù)相關新聞報道,中國三五線城市數(shù)據(jù)標注員工資也在三五千,東南亞很多國家地區(qū)的平均薪金才不到一千。據(jù)英國人力資源管理顧問機構 ECA International 公布的一份《2020年世界薪資漲幅最高國家》報告顯示,各國工人的工資中印尼最低108美元(約706元),最高272美元(約1780元);緬甸108美元;菲律賓最低135美元(約882元),最高265美元(約1733元)。

數(shù)據(jù)標注服務除了基礎設備的一次性投入,大頭就在工資上。領創(chuàng)智信的數(shù)據(jù)標注服務,企業(yè)每月能超過或累計超過5萬人?幣,就提供整套采集/標注的?案設計,所依憑的正是該地區(qū)的人力成本優(yōu)勢。如果該團隊所在地在國內,這些錢甚至不夠工人幾天的工資。

3、人才優(yōu)勢;正是因為人工成本低,可以低成本雇傭具備一定學歷的人員提供數(shù)據(jù)標注服務。以往印象中,數(shù)據(jù)標注師普遍學歷不高、工作環(huán)境惡劣,不過這只是行業(yè)事實的一角。根據(jù)過往調查,數(shù)據(jù)標注師大多都需要??票尘?,經(jīng)過培訓才能掌握通用型的拉框或打點任務。但涉及到醫(yī)療、金融、語言、法律等專業(yè)領域,都需要具備專業(yè)知識的數(shù)據(jù)師來標注,這關乎著人工智能在垂直領域應用落地。

印度能成為美國IT產(chǎn)業(yè)后花園,也正是因為該地區(qū)有班加羅爾大學、印度科學院、印度科學研究所、農科大學、國家動力研究所等教育研究機構,每年產(chǎn)出大量低成本的人才進入外包服務市場。

東南亞地區(qū)人才相關的優(yōu)勢有兩個層面,一是東南亞互聯(lián)網(wǎng)用戶數(shù)量在2020年達到4億人,意味著該地區(qū)70%的人口都是網(wǎng)民。二是該地區(qū)高等教育群體就業(yè)問題一直存在,幾年前,越南國家統(tǒng)計局一份數(shù)據(jù)顯示,越南越來越多的大學生畢業(yè)即失業(yè),人數(shù)達到19.25萬,占該國總失業(yè)人口的15%。去年印尼中央統(tǒng)計局一份報告也透露,截至2020年8月,該國失業(yè)人數(shù)也達到977萬人,同比上年度增加了267萬人。由于該地區(qū)大多數(shù)國家經(jīng)濟結構單一,許多高等教育人才面臨著畢業(yè)即失業(yè)的困境。吸納該地區(qū)人才為中國新興產(chǎn)業(yè)服務,可以大大提高國內科技領域的全球綜合實力。

4、品質優(yōu)勢;百度、阿里采取在三四線城市建設數(shù)據(jù)標注基地的做法,可以通過對某地區(qū)資源的集中傾斜,來實現(xiàn)聚集人才的目的??蛇@種方案,并不適用國內所有人工智能企業(yè)。而采用外包,往往面臨著品質問題。領創(chuàng)智信在推出數(shù)據(jù)標注服務前,在印尼、菲律賓、越南等東南亞國家已經(jīng)服務了幾百家企業(yè)級客戶,并有數(shù)億次的產(chǎn)品調用量;穩(wěn)定的AI團隊和大學生為主人群組成執(zhí)行團隊,決定了服務品質上的保證。

據(jù)了解,領創(chuàng)智信專業(yè)的線下采集標注團隊,已支持包括圖片、語音、對話、文本、視頻數(shù)據(jù)的標注及采集。通過自檢、質檢和抽檢三重把關,多數(shù)任務達到99.8%以上的合格率,這或是它和國內數(shù)據(jù)標注企業(yè)競爭最大的優(yōu)勢所在。

《三體》作者劉慈欣曾說過這樣一句話,要達到電影里面的強人工智能,在現(xiàn)在看來中間還有很多技術障礙?!艾F(xiàn)在的人工智能,前面有多少智能后面就有多少人工?!?/p>

國家十四五規(guī)劃中重點提及人工智能,大國AI競賽將是全面競爭,曾落后IT時代的中國,應該不會放棄人工智能這個難得彎道超車的機會。

而在人工智能在各個領域落地的過程里,將需要數(shù)量龐大的數(shù)據(jù)標注師作為后備軍支撐。毋庸置疑,中國人工智能的大發(fā)展,不僅將帶動著中國三五線城市的就業(yè),擁有獨特優(yōu)勢的東南亞市場,或也將成長為中國的“AI后花園”。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2021-03-31
專注東南亞的領創(chuàng)智信,緣何開始發(fā)力數(shù)據(jù)標注業(yè)務
日前,百度在港交所二次上市,三位素人“敲鐘者”中,來自百度山西數(shù)據(jù)標注基地的年輕媽媽郭梅引起了外界注意,和她一起AI數(shù)據(jù)標注師這個...

長按掃碼 閱讀全文