專訪龍貓數(shù)據(jù)CTO姚毅:為AI企業(yè)提供精準(zhǔn)數(shù)據(jù)服務(wù)

對于AI公司來講,數(shù)據(jù)的采集、清洗、標(biāo)注過程嚴(yán)重拖慢研發(fā)效率,耗費(fèi)大量人力時(shí)間,而且數(shù)據(jù)標(biāo)出來如果不規(guī)范,量不夠大,難以滿足專業(yè)化的應(yīng)用需求。然而,每一項(xiàng) AI 技術(shù)的場景應(yīng)用,背后都需要海量數(shù)據(jù)的支持。所以在人工智能產(chǎn)業(yè)鏈上,專業(yè)化的AI數(shù)據(jù)服務(wù)商便應(yīng)運(yùn)而生。

隨著AI行業(yè)的縱深發(fā)展對數(shù)據(jù)的需求量不斷增加,數(shù)據(jù)服務(wù)即是根據(jù)應(yīng)用方要求,利用人工為圖片、視頻和語音內(nèi)容打標(biāo)簽、做標(biāo)注。為AI公司用來訓(xùn)練算法模型,然后應(yīng)用到圖像識別、語音識別、動作識別、自動駕駛等不同領(lǐng)域。數(shù)據(jù)標(biāo)注得越準(zhǔn)確、數(shù)量越多,算法模型的效果就越好,高質(zhì)量的數(shù)據(jù)標(biāo)注決定一家AI公司的行業(yè)競爭力。龍貓數(shù)據(jù)就是奔馳在這個(gè)行業(yè)的一匹黑馬。

“深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,表征學(xué)習(xí)的目的,是通過從大規(guī)模數(shù)據(jù)中進(jìn)行學(xué)習(xí),并不斷追求更好的表示方法,即通常所說的模型。”龍貓數(shù)據(jù)CTO姚毅說。針對這樣的技術(shù)特性,龍貓數(shù)據(jù)在人工智能數(shù)據(jù)業(yè)務(wù)方面做到了效率高、數(shù)量大、準(zhǔn)確性高的特點(diǎn)。

姚毅介紹:“數(shù)據(jù)采集方面,性別、年齡都要控制好比例,還要考慮地域的差異。甚至采集設(shè)備的位置都會影響數(shù)據(jù)質(zhì)量;數(shù)據(jù)的清洗標(biāo)注環(huán)節(jié),要根據(jù)作業(yè)的精度要求去掉不符合的數(shù)據(jù)。最后質(zhì)量檢測,要驗(yàn)證合格的數(shù)據(jù)率,不合格數(shù)據(jù)需要重走流程。”

人工智能有三大要素:計(jì)算力、算法和數(shù)據(jù)。其中數(shù)據(jù)是人工智能的基礎(chǔ),數(shù)據(jù)量越大算法的效果越好,使得企業(yè)可以實(shí)現(xiàn)一些過去只有人能夠做的事情,因此數(shù)據(jù)是人工智能的前提。據(jù)姚毅介紹:“龍貓數(shù)據(jù)對客戶在數(shù)據(jù)采集和標(biāo)注領(lǐng)域提出的需求由技術(shù)團(tuán)隊(duì)提供定制化服務(wù),旗下?lián)碛械谋姲脚_龍貓眾包,包括移動端APP、PC端標(biāo)注網(wǎng)站等提供精準(zhǔn)的數(shù)據(jù)采集及標(biāo)注。”姚毅表示,目前龍貓眾包用戶量達(dá)到四百余萬,可承擔(dān)千萬人以上樣本量,是國內(nèi)可調(diào)動數(shù)據(jù)處理人員最多、結(jié)果最精準(zhǔn)的 AI 數(shù)據(jù)服務(wù)平臺。

在采訪中姚毅不止一次提到在數(shù)據(jù)采集和標(biāo)注中“精準(zhǔn)”對AI客戶的重要性,龍貓數(shù)據(jù)的精準(zhǔn)和極致又是如何做到的?因?yàn)閿?shù)據(jù)具有體量大、多樣性、價(jià)值密度低、速度快等特點(diǎn)。所以“精準(zhǔn)”取決于數(shù)據(jù)樣本的數(shù)量與質(zhì)量。龍貓數(shù)據(jù)不斷的采集、標(biāo)注、清洗、存儲等方式快速獲取有價(jià)值的數(shù)據(jù)和信息,積累大量數(shù)據(jù)集與數(shù)據(jù)樣本,為人工智能機(jī)器的深度學(xué)習(xí)。因此,人工智能產(chǎn)品精準(zhǔn)的識別度需要大量的數(shù)據(jù)樣本支持其計(jì)算機(jī)進(jìn)行深度學(xué)習(xí)、訓(xùn)練。換句話說,龍貓數(shù)據(jù)“精準(zhǔn)”的數(shù)據(jù)是人工智能產(chǎn)品研發(fā)結(jié)果的核心要素!

姚毅認(rèn)為在人工智能行業(yè)快速發(fā)展的前提下,以深度學(xué)習(xí)為代表的算法在諸多領(lǐng)域被逐漸應(yīng)用,對優(yōu)質(zhì)數(shù)據(jù),尤其是優(yōu)質(zhì)一手?jǐn)?shù)據(jù)的需求量快速增長。當(dāng)前,這些“有價(jià)值”的數(shù)

據(jù)往往很難依靠市場上的“公開數(shù)據(jù)”獲取,因而為做AI數(shù)據(jù)服務(wù)的公司提供了新的市場機(jī)遇。

據(jù)了解龍貓數(shù)據(jù)成立于2014年,是一家專業(yè)的AI數(shù)據(jù)服務(wù)公司,致力于為整個(gè)AI領(lǐng)域提供最專業(yè)的數(shù)據(jù)服務(wù)。龍貓數(shù)據(jù)經(jīng)過三年的發(fā)展已經(jīng)成為國內(nèi)AI數(shù)據(jù)主要的服務(wù)商,受到業(yè)界廣泛的認(rèn)可。創(chuàng)始人CTO姚毅畢業(yè)于浙江大學(xué) 計(jì)算機(jī)系工學(xué)碩士,多年技術(shù)開發(fā)及管理經(jīng)驗(yàn)。創(chuàng)業(yè)前曾就職于 Google、中興、點(diǎn)心、豌豆莢等公司。2010年作為第一批工程師加入創(chuàng)新工場,成為點(diǎn)心OS團(tuán)隊(duì)創(chuàng)始團(tuán)隊(duì)成員。2012年加入豌豆莢,領(lǐng)導(dǎo)好友系統(tǒng)及游戲 SDK的開發(fā),使好友系統(tǒng)積累上億條用戶數(shù)據(jù),SDK 嵌入一千多款游戲。

高質(zhì)量的人才創(chuàng)造高質(zhì)量的技術(shù),高質(zhì)量的技術(shù)提供高質(zhì)量的服務(wù)。用模塊化的思路打造平臺,實(shí)現(xiàn)能夠快速匹配用戶需求的共享數(shù)據(jù)平臺。帶著這個(gè)理念與邏輯詳細(xì)龍貓數(shù)據(jù)在未來的發(fā)展道路上一定會更快更穩(wěn),創(chuàng)新科技!

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-07-27
專訪龍貓數(shù)據(jù)CTO姚毅:為AI企業(yè)提供精準(zhǔn)數(shù)據(jù)服務(wù)
對于AI公司來講,數(shù)據(jù)的采集、清洗、標(biāo)注過程嚴(yán)重拖慢研發(fā)效率,耗費(fèi)大量人力時(shí)間,而且數(shù)據(jù)標(biāo)出來如果不規(guī)范,量不夠大,難以滿足專業(yè)化的應(yīng)用需求。

長按掃碼 閱讀全文