人工智能數(shù)據(jù)服務:新技術(shù)、新活力,新模式、新動能

2019軟件博覽會即將于6月28日至6月30日在北京展覽館舉行。該博覽會由工業(yè)和信息化部和北京市人民政府主辦,國家工業(yè)信息安全發(fā)展研究中心、北京市經(jīng)濟和信息化局、北京市朝陽區(qū)人民政府、北京市西城區(qū)人民政府、中國軟件行業(yè)協(xié)會共同承辦。此次展會主題是“融合網(wǎng)絡(luò)世界,驅(qū)動數(shù)字未來”,預計將有30多個國家、100多個地方省市、超過400家企業(yè)和機構(gòu)的院士專家、企業(yè)代表和國際友人參會。

  AI數(shù)據(jù)服務:新形勢,新要求

作為軟件產(chǎn)業(yè)發(fā)展的重要組成部分,人工智能行業(yè)及其上下游企業(yè)將繼續(xù)以蓬勃發(fā)展的態(tài)勢帶來更多新的體驗??v觀新的一年,人工智能核心產(chǎn)業(yè)規(guī)模急劇增長,這些技術(shù)不僅影響了軟件和互聯(lián)網(wǎng)行業(yè),還影響了其他如醫(yī)療保健、法律、制造業(yè)、汽車業(yè)等各行各業(yè),引起了全球經(jīng)濟結(jié)構(gòu)、社會生活和工作方式的深刻變革,多個國家已將人工智能提升為國家戰(zhàn)略,出臺了相關(guān)政策和規(guī)劃,力爭搶占科技的制高點。

人工智能產(chǎn)業(yè)的發(fā)展離不開數(shù)據(jù)服務業(yè)的支持,目前階段,人工智能算法的訓練主要依靠大量數(shù)據(jù)來完成。數(shù)據(jù)對于算法就像汽油對于發(fā)動機,從車輛自動化駕駛到AI聊天機器人,從醫(yī)學成像與診斷到農(nóng)作物監(jiān)測,數(shù)據(jù)在其中都扮演著不可或缺的角色。數(shù)據(jù)越多、越精準,算法訓練后獲得的模型也就越智能、越好用。與人工智能行業(yè)的蓬勃發(fā)展和對數(shù)據(jù)量更大、質(zhì)更高的要求相適應,近兩年國內(nèi)涌現(xiàn)出一大批專業(yè)從事AI數(shù)據(jù)采集與標注的服務公司,借助大量技術(shù)投入和近千萬專職、兼職數(shù)據(jù)采集標注人員,持續(xù)為不同行業(yè)AI落地輸送新鮮數(shù)據(jù)血液。國外AI數(shù)據(jù)服務業(yè)也成投資熱門,今年3月份上市公司Appen以高達3億美元的價格收購了同行業(yè)另一家數(shù)據(jù)標注公司Figure Eight。

這一次,作為國內(nèi)AI數(shù)據(jù)服務行業(yè)頭部公司的龍貓數(shù)據(jù)也將在軟博會上展示他們對行業(yè)的新想法和新探索,除了標注技術(shù)上的創(chuàng)新,更有服務模式、服務理念上的新發(fā)展,以期為人工智能產(chǎn)業(yè)注入新活力,提供發(fā)展新動能。

  龍貓數(shù)據(jù):精準標注,技術(shù)先行

人工智能數(shù)據(jù)服務:新技術(shù)、新活力,新模式、新動能

龍貓數(shù)據(jù)(北京安捷智合科技有限公司)成立于2014年,是一家全球領(lǐng)先的AI數(shù)據(jù)采集和標注服務商,專注為AI及傳統(tǒng)企業(yè)提供安全高效的綜合數(shù)據(jù)解決方案。團隊匯集行業(yè)頂尖技術(shù)研發(fā)人才,借助500萬注冊用戶,已累計為200余家AI明星企業(yè)提供了專業(yè)定制化數(shù)據(jù)服務,并與眾多國際知名企業(yè)開展長期業(yè)務合作。

數(shù)據(jù)采集與標注的核心是為AI算法提供大量精準的標注數(shù)據(jù)集,誰擁有更好用的采集標注工具,誰使用更高效的標注手段,誰就能夠在更短時間內(nèi)為客戶提供更符合要求的數(shù)據(jù)集。

龍貓數(shù)據(jù)在行業(yè)興起時入局,占據(jù)先發(fā)優(yōu)勢的他們并沒有滿足于當時的紅利,而是不斷加大技術(shù)投入,通過提升技術(shù)水平的方式提高生產(chǎn)效率。從標注平臺0.1到1.0再到2.0,從單一的網(wǎng)頁采集標注到現(xiàn)在APP、小程序、線上端與本地端聯(lián)合部署,一次次迭代升級不僅帶給客戶驚喜,也引領(lǐng)了行業(yè)技術(shù)提升,給行業(yè)帶來更多變革和機遇。

以標注過程中圖像標注技術(shù)為例,在傳統(tǒng)的圖像標注方式中,最常用的就是打點連線和PS技術(shù):打點連線是沿著要標注的物體邊沿打上足夠多的點,然后通過連成線標注出對象輪廓。這一方式門檻低但極其繁瑣,只適用于交通線等直線標注,標注效果也不夠理想;而通過PS等畫面處理技術(shù)標注,準入門檻較高,只有深度掌握PS等繪圖技術(shù)才能夠進行,標注時間和人力成本高,且導出格式單一,達不到客戶要求,成為制約圖像標注時效和質(zhì)量的一大瓶頸。

面對越來越多、要求越來越高的圖像標注需求,龍貓數(shù)據(jù)憑借創(chuàng)新性思維和不斷探索的精神,開發(fā)出國內(nèi)首個圖像簡易標注工具——超像素分割標注:采用超像素分割技術(shù),將數(shù)字圖像細分為多個圖像子區(qū)域(像素的集合)進行標注。這樣一來,不僅標注精度大大提高,標注對象邊緣更加精確清晰,標注時間也大大壓縮。最重要的是,完成這種精度的標注,完全不需要再借助PS等圖像處理工具,將有更多標注員有機會參與進來,提升了整體標注效率。

人工智能數(shù)據(jù)服務:新技術(shù)、新活力,新模式、新動能

采用了超像素分割標注方法之后,原來那么多彎折的曲線再也不用挨個打點連線,簡單的涂涂畫畫就標注完了。對于標注員來說,最直觀的提升是工作的趣味性,就像小朋友喜歡玩的涂顏色游戲一樣,在已有的分割好的框架內(nèi)簡單涂幾筆就完成了,再也不用打上密密麻麻的點然后連線了。目前國際上擁有這項技術(shù)的公司寥寥無幾,龍貓數(shù)據(jù)公司憑借自己的基礎(chǔ)和實力,開發(fā)出這樣好用實用的工具,直接為部分科技公司節(jié)省下一半以上的數(shù)據(jù)獲取時間。

像這樣的例子還有很多,比如語音標注中可以進行無縫時間戳選取的ASR智能標注,比如物體標記中實現(xiàn)從2維到3維突破的3Dbox標注。除了采集和標注工具技術(shù)以外,AI數(shù)據(jù)服務的核心還在于人:數(shù)據(jù)采集和標注本身是勞動密集型產(chǎn)業(yè),無論是提供各類文本語音,圖像視頻還是對它們進行標注打標簽,都離不開海量基礎(chǔ)人員的支持。龍貓數(shù)據(jù)在行業(yè)內(nèi)率先采用眾包的模式,將拆分好的任務分配給三四五線城市人群完成,降低了勞動成本的同時提高了任務完成效率,也直接帶動了大量人員就業(yè)。據(jù)估計,截止目前,國內(nèi)專職和兼職從事數(shù)據(jù)采集標注的人員已經(jīng)超千萬。

  高效管理,完善生態(tài)

人工智能數(shù)據(jù)服務:新技術(shù)、新活力,新模式、新動能

龍貓數(shù)據(jù)網(wǎng)站、APP注冊人數(shù)超過五百萬,旗下管理的專業(yè)渠道(中小型采集標注團隊)超過2000個。面對一個嶄新的行業(yè),并沒有過多經(jīng)驗可以給他們提供參考,如何對這么多團隊和個人進行高效管理,如何在不斷發(fā)展過程中提升他們的職業(yè)素養(yǎng)成了擺在龍貓數(shù)據(jù)公司前的一道難題。

為此,龍貓數(shù)據(jù)研制出一整套針對用戶的自動化管理系統(tǒng),通過這套系統(tǒng)可以實現(xiàn)任務自動分發(fā),根據(jù)用戶專業(yè)技能實時匹配。在行業(yè)內(nèi)眾多公司都還需要渠道“刷臉”獲取任務的時候,龍貓數(shù)據(jù)率先砍掉“白名單”制度,將數(shù)據(jù)需求在全平臺分發(fā),根據(jù)渠道考核結(jié)果匹配合適人選。同時還支持任務多渠道同時完成,按能力分配任務量。借助經(jīng)驗評價系統(tǒng)龍貓數(shù)據(jù)會針對完成任務的人員進行經(jīng)驗值增減,將數(shù)據(jù)需求分配給合適經(jīng)驗值等級人群,極大提升了任務完成效率。

為提升用戶做任務能力,龍貓數(shù)據(jù)還會對用戶進行不定期現(xiàn)場培訓,實現(xiàn)用戶工作素質(zhì)提升,與平臺共同發(fā)展進步。同時他們也十分注重采集標注從業(yè)人員的生態(tài)建設(shè),在公司旗下“龍貓眾包”APP 中,有著屬于采標人自己的“大本營”——輕量級社區(qū)功能模塊“龍貓廣場”,在這里用戶可以自由發(fā)布帖子,同時可以評論、轉(zhuǎn)發(fā)、標記喜歡,使得用戶可以在app內(nèi)實現(xiàn)信息的共享和傳播。類似于微博熱搜,話題還有TOP10榜單,按照討論熱度排列,TOP10的話題所有用戶可見,榜單內(nèi)的話題會獲得更高的參與度和熱度。社區(qū)的內(nèi)容審核機制也使得用戶可以通過舉報來維持社區(qū)有序、文明的氛圍。他們希望希望借此打造出有愛、有溫度的AI基礎(chǔ)服務社區(qū)。

  創(chuàng)新模式,開放共享

面對國內(nèi)人工智能產(chǎn)業(yè)蓬勃發(fā)展、需求旺盛的局面,龍貓數(shù)據(jù)沒有固步自封,而是積極變革、通過推出不同服務模式滿足行業(yè)新變化和新需求。在傳統(tǒng)的AI數(shù)據(jù)服務過程中,數(shù)據(jù)定制化一直是行業(yè)普遍采取的做法:由數(shù)據(jù)需求方提出需求,剩下的所有步驟都交由數(shù)據(jù)服務公司完成。這無疑增加了需要多種類、小批量數(shù)據(jù)的中小公司、初創(chuàng)企業(yè)的試錯成本,而如果能夠擁有自己的采集標注平臺,自主完成數(shù)據(jù)需求投放和滿足,則可以大大降低數(shù)據(jù)集獲取成本,直接對接用戶也可以提升任務完成準確性?;诖?,龍貓數(shù)據(jù)推出了行業(yè)創(chuàng)新性服務模式——龍貓數(shù)據(jù)采集標注開放平臺。

龍貓數(shù)據(jù)開放平臺是完全開放化的,任何進入開放平臺的客戶,只要注冊,就能夠使用整套數(shù)據(jù)采集標注系統(tǒng),也能夠調(diào)用其中百萬級的專業(yè)采標人員。平臺上實現(xiàn)了全面的通用型標注工具免費使用,包括超像素分割語義處理系統(tǒng)、ASR語音標注系統(tǒng)、NLP自然語言處理系統(tǒng)等,可實現(xiàn)語音波形圖展示、無縫時間戳選取,圖像與自然語言精準標注,滿足各種數(shù)據(jù)類型需求。

開放平臺最大的特點是開放和共享,簡單來說,就是搭建了一個針對供需雙方的發(fā)布需求和提供服務的開放的第三方平臺,可以最大限度地節(jié)省企業(yè)的時間成本和開發(fā)成本,同時提高工作效率。平臺實現(xiàn)了7×24小時極速響應需求,500萬注冊用戶,2000個以上的專業(yè)團隊以及咨詢顧問全程跟蹤,可以為企業(yè)快速配置個性化任務流。在開放平臺上,企業(yè)直接發(fā)布任務,對需求理解更透徹,數(shù)據(jù)質(zhì)量更高;直接對接采集、標注用戶,省去中間環(huán)節(jié),企業(yè)自主定價,可減少成本支出30%以上。

開放平臺一個很好的作用就是降低了人工智能的入行門檻,平臺保證了數(shù)據(jù)需求方的任務能夠獲得更多樣從業(yè)者的關(guān)注,專業(yè)團隊也能夠迅速響應,這樣一來,就能讓更多的企業(yè)參與到人工智能行業(yè)中來。在數(shù)據(jù)安全方面,開放平臺則保證了數(shù)據(jù)加密環(huán)節(jié)安全可控,在數(shù)據(jù)傳輸過程中數(shù)據(jù)同樣會被加密,以保證數(shù)據(jù)的安全。同時,在使用開放式平臺的過程中,龍貓數(shù)據(jù)會和客戶簽署一套電子協(xié)議,保證客戶在使用數(shù)據(jù)的過程中要做到合法合規(guī)。如果在數(shù)據(jù)使用過程中出現(xiàn)了問題,平臺完全可以根據(jù)任務去追溯到應用,追究相關(guān)機構(gòu)或者個人的責任。這樣一來,對于平臺使用者而言就有所約束,但更是一種有效地保護。

數(shù)據(jù)采集與標注是人工智能落地的重要一步,龍貓數(shù)據(jù)將在此次軟博會上講述他們對于行業(yè)的所思與所做,與更多企業(yè)一同探討人工智能發(fā)展的無限可能。我們也期待更多企業(yè)能夠像龍貓數(shù)據(jù)一樣,專注本職而又不限于此,努力奮進不忘創(chuàng)新,借助新技術(shù)釋放新活力,開拓新模式創(chuàng)造新動能,為中國軟件產(chǎn)業(yè)乃至整個科技產(chǎn)業(yè)的發(fā)展做出卓著貢獻。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-06-27
人工智能數(shù)據(jù)服務:新技術(shù)、新活力,新模式、新動能
2019軟件博覽會即將于6月28日至6月30日在北京展覽館舉行。

長按掃碼 閱讀全文