人工智能數(shù)據(jù)服務(wù):新技術(shù)、新活力,新模式、新動(dòng)能

2019軟件博覽會(huì)即將于6月28日至6月30日在北京展覽館舉行。該博覽會(huì)由工業(yè)和信息化部和北京市人民政府主辦,國(guó)家工業(yè)信息安全發(fā)展研究中心、北京市經(jīng)濟(jì)和信息化局、北京市朝陽(yáng)區(qū)人民政府、北京市西城區(qū)人民政府、中國(guó)軟件行業(yè)協(xié)會(huì)共同承辦。此次展會(huì)主題是“融合網(wǎng)絡(luò)世界,驅(qū)動(dòng)數(shù)字未來”,預(yù)計(jì)將有30多個(gè)國(guó)家、100多個(gè)地方省市、超過400家企業(yè)和機(jī)構(gòu)的院士專家、企業(yè)代表和國(guó)際友人參會(huì)。

  AI數(shù)據(jù)服務(wù):新形勢(shì),新要求

作為軟件產(chǎn)業(yè)發(fā)展的重要組成部分,人工智能行業(yè)及其上下游企業(yè)將繼續(xù)以蓬勃發(fā)展的態(tài)勢(shì)帶來更多新的體驗(yàn)??v觀新的一年,人工智能核心產(chǎn)業(yè)規(guī)模急劇增長(zhǎng),這些技術(shù)不僅影響了軟件和互聯(lián)網(wǎng)行業(yè),還影響了其他如醫(yī)療保健、法律、制造業(yè)、汽車業(yè)等各行各業(yè),引起了全球經(jīng)濟(jì)結(jié)構(gòu)、社會(huì)生活和工作方式的深刻變革,多個(gè)國(guó)家已將人工智能提升為國(guó)家戰(zhàn)略,出臺(tái)了相關(guān)政策和規(guī)劃,力爭(zhēng)搶占科技的制高點(diǎn)。

人工智能產(chǎn)業(yè)的發(fā)展離不開數(shù)據(jù)服務(wù)業(yè)的支持,目前階段,人工智能算法的訓(xùn)練主要依靠大量數(shù)據(jù)來完成。數(shù)據(jù)對(duì)于算法就像汽油對(duì)于發(fā)動(dòng)機(jī),從車輛自動(dòng)化駕駛到AI聊天機(jī)器人,從醫(yī)學(xué)成像與診斷到農(nóng)作物監(jiān)測(cè),數(shù)據(jù)在其中都扮演著不可或缺的角色。數(shù)據(jù)越多、越精準(zhǔn),算法訓(xùn)練后獲得的模型也就越智能、越好用。與人工智能行業(yè)的蓬勃發(fā)展和對(duì)數(shù)據(jù)量更大、質(zhì)更高的要求相適應(yīng),近兩年國(guó)內(nèi)涌現(xiàn)出一大批專業(yè)從事AI數(shù)據(jù)采集與標(biāo)注的服務(wù)公司,借助大量技術(shù)投入和近千萬專職、兼職數(shù)據(jù)采集標(biāo)注人員,持續(xù)為不同行業(yè)AI落地輸送新鮮數(shù)據(jù)血液。國(guó)外AI數(shù)據(jù)服務(wù)業(yè)也成投資熱門,今年3月份上市公司Appen以高達(dá)3億美元的價(jià)格收購(gòu)了同行業(yè)另一家數(shù)據(jù)標(biāo)注公司Figure Eight。

這一次,作為國(guó)內(nèi)AI數(shù)據(jù)服務(wù)行業(yè)頭部公司的龍貓數(shù)據(jù)也將在軟博會(huì)上展示他們對(duì)行業(yè)的新想法和新探索,除了標(biāo)注技術(shù)上的創(chuàng)新,更有服務(wù)模式、服務(wù)理念上的新發(fā)展,以期為人工智能產(chǎn)業(yè)注入新活力,提供發(fā)展新動(dòng)能。

  龍貓數(shù)據(jù):精準(zhǔn)標(biāo)注,技術(shù)先行

人工智能數(shù)據(jù)服務(wù):新技術(shù)、新活力,新模式、新動(dòng)能

龍貓數(shù)據(jù)(北京安捷智合科技有限公司)成立于2014年,是一家全球領(lǐng)先的AI數(shù)據(jù)采集和標(biāo)注服務(wù)商,專注為AI及傳統(tǒng)企業(yè)提供安全高效的綜合數(shù)據(jù)解決方案。團(tuán)隊(duì)匯集行業(yè)頂尖技術(shù)研發(fā)人才,借助500萬注冊(cè)用戶,已累計(jì)為200余家AI明星企業(yè)提供了專業(yè)定制化數(shù)據(jù)服務(wù),并與眾多國(guó)際知名企業(yè)開展長(zhǎng)期業(yè)務(wù)合作。

數(shù)據(jù)采集與標(biāo)注的核心是為AI算法提供大量精準(zhǔn)的標(biāo)注數(shù)據(jù)集,誰擁有更好用的采集標(biāo)注工具,誰使用更高效的標(biāo)注手段,誰就能夠在更短時(shí)間內(nèi)為客戶提供更符合要求的數(shù)據(jù)集。

龍貓數(shù)據(jù)在行業(yè)興起時(shí)入局,占據(jù)先發(fā)優(yōu)勢(shì)的他們并沒有滿足于當(dāng)時(shí)的紅利,而是不斷加大技術(shù)投入,通過提升技術(shù)水平的方式提高生產(chǎn)效率。從標(biāo)注平臺(tái)0.1到1.0再到2.0,從單一的網(wǎng)頁(yè)采集標(biāo)注到現(xiàn)在APP、小程序、線上端與本地端聯(lián)合部署,一次次迭代升級(jí)不僅帶給客戶驚喜,也引領(lǐng)了行業(yè)技術(shù)提升,給行業(yè)帶來更多變革和機(jī)遇。

以標(biāo)注過程中圖像標(biāo)注技術(shù)為例,在傳統(tǒng)的圖像標(biāo)注方式中,最常用的就是打點(diǎn)連線和PS技術(shù):打點(diǎn)連線是沿著要標(biāo)注的物體邊沿打上足夠多的點(diǎn),然后通過連成線標(biāo)注出對(duì)象輪廓。這一方式門檻低但極其繁瑣,只適用于交通線等直線標(biāo)注,標(biāo)注效果也不夠理想;而通過PS等畫面處理技術(shù)標(biāo)注,準(zhǔn)入門檻較高,只有深度掌握PS等繪圖技術(shù)才能夠進(jìn)行,標(biāo)注時(shí)間和人力成本高,且導(dǎo)出格式單一,達(dá)不到客戶要求,成為制約圖像標(biāo)注時(shí)效和質(zhì)量的一大瓶頸。

面對(duì)越來越多、要求越來越高的圖像標(biāo)注需求,龍貓數(shù)據(jù)憑借創(chuàng)新性思維和不斷探索的精神,開發(fā)出國(guó)內(nèi)首個(gè)圖像簡(jiǎn)易標(biāo)注工具——超像素分割標(biāo)注:采用超像素分割技術(shù),將數(shù)字圖像細(xì)分為多個(gè)圖像子區(qū)域(像素的集合)進(jìn)行標(biāo)注。這樣一來,不僅標(biāo)注精度大大提高,標(biāo)注對(duì)象邊緣更加精確清晰,標(biāo)注時(shí)間也大大壓縮。最重要的是,完成這種精度的標(biāo)注,完全不需要再借助PS等圖像處理工具,將有更多標(biāo)注員有機(jī)會(huì)參與進(jìn)來,提升了整體標(biāo)注效率。

人工智能數(shù)據(jù)服務(wù):新技術(shù)、新活力,新模式、新動(dòng)能

采用了超像素分割標(biāo)注方法之后,原來那么多彎折的曲線再也不用挨個(gè)打點(diǎn)連線,簡(jiǎn)單的涂涂畫畫就標(biāo)注完了。對(duì)于標(biāo)注員來說,最直觀的提升是工作的趣味性,就像小朋友喜歡玩的涂顏色游戲一樣,在已有的分割好的框架內(nèi)簡(jiǎn)單涂幾筆就完成了,再也不用打上密密麻麻的點(diǎn)然后連線了。目前國(guó)際上擁有這項(xiàng)技術(shù)的公司寥寥無幾,龍貓數(shù)據(jù)公司憑借自己的基礎(chǔ)和實(shí)力,開發(fā)出這樣好用實(shí)用的工具,直接為部分科技公司節(jié)省下一半以上的數(shù)據(jù)獲取時(shí)間。

像這樣的例子還有很多,比如語(yǔ)音標(biāo)注中可以進(jìn)行無縫時(shí)間戳選取的ASR智能標(biāo)注,比如物體標(biāo)記中實(shí)現(xiàn)從2維到3維突破的3Dbox標(biāo)注。除了采集和標(biāo)注工具技術(shù)以外,AI數(shù)據(jù)服務(wù)的核心還在于人:數(shù)據(jù)采集和標(biāo)注本身是勞動(dòng)密集型產(chǎn)業(yè),無論是提供各類文本語(yǔ)音,圖像視頻還是對(duì)它們進(jìn)行標(biāo)注打標(biāo)簽,都離不開海量基礎(chǔ)人員的支持。龍貓數(shù)據(jù)在行業(yè)內(nèi)率先采用眾包的模式,將拆分好的任務(wù)分配給三四五線城市人群完成,降低了勞動(dòng)成本的同時(shí)提高了任務(wù)完成效率,也直接帶動(dòng)了大量人員就業(yè)。據(jù)估計(jì),截止目前,國(guó)內(nèi)專職和兼職從事數(shù)據(jù)采集標(biāo)注的人員已經(jīng)超千萬。

  高效管理,完善生態(tài)

人工智能數(shù)據(jù)服務(wù):新技術(shù)、新活力,新模式、新動(dòng)能

龍貓數(shù)據(jù)網(wǎng)站、APP注冊(cè)人數(shù)超過五百萬,旗下管理的專業(yè)渠道(中小型采集標(biāo)注團(tuán)隊(duì))超過2000個(gè)。面對(duì)一個(gè)嶄新的行業(yè),并沒有過多經(jīng)驗(yàn)可以給他們提供參考,如何對(duì)這么多團(tuán)隊(duì)和個(gè)人進(jìn)行高效管理,如何在不斷發(fā)展過程中提升他們的職業(yè)素養(yǎng)成了擺在龍貓數(shù)據(jù)公司前的一道難題。

為此,龍貓數(shù)據(jù)研制出一整套針對(duì)用戶的自動(dòng)化管理系統(tǒng),通過這套系統(tǒng)可以實(shí)現(xiàn)任務(wù)自動(dòng)分發(fā),根據(jù)用戶專業(yè)技能實(shí)時(shí)匹配。在行業(yè)內(nèi)眾多公司都還需要渠道“刷臉”獲取任務(wù)的時(shí)候,龍貓數(shù)據(jù)率先砍掉“白名單”制度,將數(shù)據(jù)需求在全平臺(tái)分發(fā),根據(jù)渠道考核結(jié)果匹配合適人選。同時(shí)還支持任務(wù)多渠道同時(shí)完成,按能力分配任務(wù)量。借助經(jīng)驗(yàn)評(píng)價(jià)系統(tǒng)龍貓數(shù)據(jù)會(huì)針對(duì)完成任務(wù)的人員進(jìn)行經(jīng)驗(yàn)值增減,將數(shù)據(jù)需求分配給合適經(jīng)驗(yàn)值等級(jí)人群,極大提升了任務(wù)完成效率。

為提升用戶做任務(wù)能力,龍貓數(shù)據(jù)還會(huì)對(duì)用戶進(jìn)行不定期現(xiàn)場(chǎng)培訓(xùn),實(shí)現(xiàn)用戶工作素質(zhì)提升,與平臺(tái)共同發(fā)展進(jìn)步。同時(shí)他們也十分注重采集標(biāo)注從業(yè)人員的生態(tài)建設(shè),在公司旗下“龍貓眾包”APP 中,有著屬于采標(biāo)人自己的“大本營(yíng)”——輕量級(jí)社區(qū)功能模塊“龍貓廣場(chǎng)”,在這里用戶可以自由發(fā)布帖子,同時(shí)可以評(píng)論、轉(zhuǎn)發(fā)、標(biāo)記喜歡,使得用戶可以在app內(nèi)實(shí)現(xiàn)信息的共享和傳播。類似于微博熱搜,話題還有TOP10榜單,按照討論熱度排列,TOP10的話題所有用戶可見,榜單內(nèi)的話題會(huì)獲得更高的參與度和熱度。社區(qū)的內(nèi)容審核機(jī)制也使得用戶可以通過舉報(bào)來維持社區(qū)有序、文明的氛圍。他們希望希望借此打造出有愛、有溫度的AI基礎(chǔ)服務(wù)社區(qū)。

  創(chuàng)新模式,開放共享

面對(duì)國(guó)內(nèi)人工智能產(chǎn)業(yè)蓬勃發(fā)展、需求旺盛的局面,龍貓數(shù)據(jù)沒有固步自封,而是積極變革、通過推出不同服務(wù)模式滿足行業(yè)新變化和新需求。在傳統(tǒng)的AI數(shù)據(jù)服務(wù)過程中,數(shù)據(jù)定制化一直是行業(yè)普遍采取的做法:由數(shù)據(jù)需求方提出需求,剩下的所有步驟都交由數(shù)據(jù)服務(wù)公司完成。這無疑增加了需要多種類、小批量數(shù)據(jù)的中小公司、初創(chuàng)企業(yè)的試錯(cuò)成本,而如果能夠擁有自己的采集標(biāo)注平臺(tái),自主完成數(shù)據(jù)需求投放和滿足,則可以大大降低數(shù)據(jù)集獲取成本,直接對(duì)接用戶也可以提升任務(wù)完成準(zhǔn)確性?;诖?,龍貓數(shù)據(jù)推出了行業(yè)創(chuàng)新性服務(wù)模式——龍貓數(shù)據(jù)采集標(biāo)注開放平臺(tái)。

龍貓數(shù)據(jù)開放平臺(tái)是完全開放化的,任何進(jìn)入開放平臺(tái)的客戶,只要注冊(cè),就能夠使用整套數(shù)據(jù)采集標(biāo)注系統(tǒng),也能夠調(diào)用其中百萬級(jí)的專業(yè)采標(biāo)人員。平臺(tái)上實(shí)現(xiàn)了全面的通用型標(biāo)注工具免費(fèi)使用,包括超像素分割語(yǔ)義處理系統(tǒng)、ASR語(yǔ)音標(biāo)注系統(tǒng)、NLP自然語(yǔ)言處理系統(tǒng)等,可實(shí)現(xiàn)語(yǔ)音波形圖展示、無縫時(shí)間戳選取,圖像與自然語(yǔ)言精準(zhǔn)標(biāo)注,滿足各種數(shù)據(jù)類型需求。

開放平臺(tái)最大的特點(diǎn)是開放和共享,簡(jiǎn)單來說,就是搭建了一個(gè)針對(duì)供需雙方的發(fā)布需求和提供服務(wù)的開放的第三方平臺(tái),可以最大限度地節(jié)省企業(yè)的時(shí)間成本和開發(fā)成本,同時(shí)提高工作效率。平臺(tái)實(shí)現(xiàn)了7×24小時(shí)極速響應(yīng)需求,500萬注冊(cè)用戶,2000個(gè)以上的專業(yè)團(tuán)隊(duì)以及咨詢顧問全程跟蹤,可以為企業(yè)快速配置個(gè)性化任務(wù)流。在開放平臺(tái)上,企業(yè)直接發(fā)布任務(wù),對(duì)需求理解更透徹,數(shù)據(jù)質(zhì)量更高;直接對(duì)接采集、標(biāo)注用戶,省去中間環(huán)節(jié),企業(yè)自主定價(jià),可減少成本支出30%以上。

開放平臺(tái)一個(gè)很好的作用就是降低了人工智能的入行門檻,平臺(tái)保證了數(shù)據(jù)需求方的任務(wù)能夠獲得更多樣從業(yè)者的關(guān)注,專業(yè)團(tuán)隊(duì)也能夠迅速響應(yīng),這樣一來,就能讓更多的企業(yè)參與到人工智能行業(yè)中來。在數(shù)據(jù)安全方面,開放平臺(tái)則保證了數(shù)據(jù)加密環(huán)節(jié)安全可控,在數(shù)據(jù)傳輸過程中數(shù)據(jù)同樣會(huì)被加密,以保證數(shù)據(jù)的安全。同時(shí),在使用開放式平臺(tái)的過程中,龍貓數(shù)據(jù)會(huì)和客戶簽署一套電子協(xié)議,保證客戶在使用數(shù)據(jù)的過程中要做到合法合規(guī)。如果在數(shù)據(jù)使用過程中出現(xiàn)了問題,平臺(tái)完全可以根據(jù)任務(wù)去追溯到應(yīng)用,追究相關(guān)機(jī)構(gòu)或者個(gè)人的責(zé)任。這樣一來,對(duì)于平臺(tái)使用者而言就有所約束,但更是一種有效地保護(hù)。

數(shù)據(jù)采集與標(biāo)注是人工智能落地的重要一步,龍貓數(shù)據(jù)將在此次軟博會(huì)上講述他們對(duì)于行業(yè)的所思與所做,與更多企業(yè)一同探討人工智能發(fā)展的無限可能。我們也期待更多企業(yè)能夠像龍貓數(shù)據(jù)一樣,專注本職而又不限于此,努力奮進(jìn)不忘創(chuàng)新,借助新技術(shù)釋放新活力,開拓新模式創(chuàng)造新動(dòng)能,為中國(guó)軟件產(chǎn)業(yè)乃至整個(gè)科技產(chǎn)業(yè)的發(fā)展做出卓著貢獻(xiàn)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-06-27
人工智能數(shù)據(jù)服務(wù):新技術(shù)、新活力,新模式、新動(dòng)能
2019軟件博覽會(huì)即將于6月28日至6月30日在北京展覽館舉行。

長(zhǎng)按掃碼 閱讀全文