海天瑞聲李科分享技術(shù)賦能人工智能標(biāo)注,高質(zhì)量數(shù)據(jù)助推人工智能發(fā)展

3月9日,鈦媒體華楠直播間「訓(xùn)練AI的人」專場(chǎng)直播中,海天瑞聲副總經(jīng)理、業(yè)務(wù)負(fù)責(zé)人李科受邀做客直播間,分享人工智能在標(biāo)注和算法中有哪些技術(shù)革新、AI訓(xùn)練師如何教人工智能更懂人類,如何賦能人工智能產(chǎn)業(yè)。

華楠:

AI訓(xùn)練師是一個(gè)怎樣的職業(yè),請(qǐng)科總為我們簡(jiǎn)單介紹。

李科:

2021年底,人力資源社會(huì)保障部、工業(yè)和信息化部共同制定的人工智能訓(xùn)練師等6個(gè)國(guó)家職業(yè)技能標(biāo)準(zhǔn)出臺(tái)。在人工智能訓(xùn)練師國(guó)家職業(yè)技能標(biāo)準(zhǔn)》中,對(duì)于人工智能訓(xùn)練師的職業(yè)定義,是使用智能訓(xùn)練軟件,在人工智能產(chǎn)品實(shí)際使用過程中進(jìn)行數(shù)據(jù)庫管理、算法參數(shù)設(shè)置、人機(jī)交互設(shè)計(jì)、性能測(cè)試跟蹤及其他輔導(dǎo)作業(yè)的人員。人工智能訓(xùn)練師包含兩個(gè)工種五大等級(jí),分別為數(shù)據(jù)標(biāo)注員和人工智能算法測(cè)試員,又分初級(jí)工、中級(jí)工、高級(jí)工、技師、高級(jí)技師這由低到高的五大等級(jí)。

華楠:

對(duì)于您提到的數(shù)據(jù)標(biāo)注員和算法測(cè)試員,請(qǐng)您進(jìn)一步介紹兩個(gè)職業(yè)分別做什么工作,又有怎樣的區(qū)別?

李科:

我們業(yè)內(nèi)經(jīng)常有一句話:有多少人工就有多少智能。

數(shù)據(jù)標(biāo)注員從事的主要是人工部分的工作。根據(jù)相關(guān)的要求和規(guī)范,基于標(biāo)注員自身的知識(shí)進(jìn)行數(shù)據(jù)標(biāo)注。舉例來說,在人臉識(shí)別、自動(dòng)駕駛場(chǎng)景中,很多數(shù)據(jù)是從真實(shí)世界中獲取的原始數(shù)據(jù),這些數(shù)據(jù)無法直接用作算法訓(xùn)練,需要通過人的加工,才可以形成最終被算法識(shí)別的結(jié)構(gòu)化數(shù)據(jù)集。

例如在算法識(shí)別人臉數(shù)據(jù)的場(chǎng)景中,需要對(duì)人臉進(jìn)行關(guān)鍵點(diǎn)標(biāo)注。最簡(jiǎn)單的關(guān)鍵點(diǎn)包括兩個(gè)瞳孔、一個(gè)鼻尖和兩個(gè)嘴角。而隨著算法進(jìn)步,需要標(biāo)注的關(guān)鍵點(diǎn)也隨之增加。在以往的實(shí)際業(yè)務(wù)中,我們最多能夠在一張臉上標(biāo)注200多個(gè)關(guān)鍵點(diǎn)。

這聽起來簡(jiǎn)單,但在實(shí)際操作過程中會(huì)遇到很多難點(diǎn),如遇到暗光環(huán)境、側(cè)臉環(huán)境、非正面環(huán)境等,標(biāo)注員只能看見單側(cè)的瞳孔,需要對(duì)應(yīng)想象另一側(cè)瞳孔的位置才能進(jìn)行標(biāo)注。

另外一個(gè)職位是算法測(cè)試員,主要對(duì)人工智能的算法性能和效果進(jìn)行測(cè)試,通過定義一套測(cè)試的規(guī)范流程,最終得出測(cè)試結(jié)果。當(dāng)算法迭代或系統(tǒng)升級(jí),能夠客觀評(píng)判算法的升級(jí)或者迭代的方法是否取得了進(jìn)步。

華楠:

目前什么樣的人在從事數(shù)據(jù)標(biāo)注,需要具備哪些專業(yè)知識(shí)?

李科:

從我們的人員架構(gòu)可以看出,主要分為三類人員。

第一類是研發(fā)和算法人員。在訓(xùn)練算法的過程中,可能會(huì)需要百萬、千萬級(jí)的數(shù)據(jù),我們需要開發(fā)專業(yè)的系統(tǒng)對(duì)數(shù)據(jù)快速準(zhǔn)確的進(jìn)行標(biāo)注,同時(shí)通過算法輔助實(shí)現(xiàn)標(biāo)注效率的提升。

第二類是項(xiàng)目管理人員。例如在標(biāo)注1000萬張人臉圖片的項(xiàng)目中,項(xiàng)目管理人員需要在前期規(guī)劃、項(xiàng)目實(shí)施、項(xiàng)目監(jiān)控、項(xiàng)目交付等過程中把控項(xiàng)目進(jìn)度,最終滿足客戶的交付需求。

第三類是廣義概念的數(shù)據(jù)標(biāo)注員。這其中包含了數(shù)據(jù)標(biāo)注員、標(biāo)注組長(zhǎng)、質(zhì)檢組長(zhǎng),以及客戶方可能會(huì)配備的驗(yàn)收員等,這些都是廣義上被定義為數(shù)據(jù)標(biāo)注的人員。

從我們的業(yè)務(wù)角度,可以概括的分為智能語音、計(jì)算機(jī)視覺、自然語言理解三大方向,對(duì)數(shù)據(jù)標(biāo)注員也有著不同要求。例如在自動(dòng)駕駛領(lǐng)域,主要分為2D、3D兩個(gè)方面,在車載攝像頭拍攝的街景照片中,標(biāo)注員需要對(duì)車輛、行人、標(biāo)識(shí)線、標(biāo)識(shí)物、紅綠燈等內(nèi)容進(jìn)行標(biāo)注,我們會(huì)有針對(duì)性的對(duì)標(biāo)注人員進(jìn)行交通法規(guī)、汽車駕駛等相關(guān)培訓(xùn)。

但是在金融、醫(yī)療、法律等場(chǎng)景和更加細(xì)分和垂直的領(lǐng)域中,則要求標(biāo)注人員擁有專業(yè)的知識(shí)儲(chǔ)備。例如在CT圖像中標(biāo)注肺癌腫瘤生長(zhǎng)點(diǎn)的位置具體,這就需要接受長(zhǎng)時(shí)間培訓(xùn)的專業(yè)人員才能夠滿足標(biāo)注的需求。

所以標(biāo)注人員需要怎樣的專業(yè)知識(shí),也要根據(jù)需求具體問題具體分析。大部分的標(biāo)注需求可以通過短期的培訓(xùn)達(dá)到標(biāo)準(zhǔn),但針對(duì)特殊領(lǐng)域則需要長(zhǎng)時(shí)間接受過專業(yè)的系統(tǒng)性培訓(xùn)才能夠符合要求。

華楠:

最近大模型相關(guān)話題火熱,模型背后其實(shí)就是數(shù)據(jù),作為人工智能的三要素,利用數(shù)據(jù)訓(xùn)練形成算法很重要,如何通過數(shù)據(jù)標(biāo)注和訓(xùn)練在場(chǎng)景中應(yīng)用AI?要經(jīng)歷哪些階段?

李科:

人工智能的發(fā)展主要得益于三個(gè)方面的發(fā)展,包括算力、算法和數(shù)據(jù)。正是因?yàn)楹A康臄?shù)據(jù)更好的滿足了算法需求,所以才有了這一輪大規(guī)模的爆發(fā)和應(yīng)用。我們有一句話叫做Garbage In, Garbage Out,如果輸入的數(shù)據(jù)質(zhì)量不高,輸出的結(jié)果也會(huì)不盡人意。這句話從一定程度上表明數(shù)據(jù)質(zhì)量的重要性,只有高質(zhì)量、大規(guī)模、結(jié)構(gòu)化的數(shù)據(jù)才能夠提升人工智能系統(tǒng)的效果。

具體到人工智能系統(tǒng)層面來講,通常分為兩個(gè)階段。第一個(gè)階段是訓(xùn)練階段:在這個(gè)場(chǎng)景下需要大量的訓(xùn)練數(shù)據(jù),通過數(shù)據(jù)和算法得到模型。第二個(gè)階段是推理階段:在這個(gè)階段會(huì)應(yīng)用在訓(xùn)練階段得到的模型,對(duì)新的數(shù)據(jù)進(jìn)行推理。

例如在語音識(shí)別場(chǎng)景,首先我們?cè)谟?xùn)練階段設(shè)計(jì)出一個(gè)語音識(shí)別算法,然后通過使用大量的語音數(shù)據(jù)得到一個(gè)語音模型。接著進(jìn)入到推理階段,使用一句話輸入到語音模型中,從而得到語音識(shí)別的結(jié)果,通常是一個(gè)文本。這就是整個(gè)AI應(yīng)用的兩個(gè)階段。

具體到數(shù)據(jù)層面,通常我們會(huì)將數(shù)據(jù)的生產(chǎn)過程分為四大階段:包括數(shù)據(jù)集設(shè)計(jì)、數(shù)據(jù)采集、數(shù)據(jù)清洗標(biāo)注(也稱為數(shù)據(jù)處理),以及數(shù)據(jù)質(zhì)檢和交付。

在數(shù)據(jù)設(shè)計(jì)和采集階段,還是用人臉識(shí)別舉例,在設(shè)計(jì)階段中需要根據(jù)應(yīng)用的場(chǎng)景,設(shè)計(jì)采集人數(shù)、性別,采集光線、角度、場(chǎng)景,是否需要多人組合采集等眾多內(nèi)容,才能進(jìn)行采集并得到原始數(shù)據(jù)。在數(shù)據(jù)標(biāo)注階段,對(duì)標(biāo)注過程進(jìn)行規(guī)范處理,形成結(jié)構(gòu)化數(shù)據(jù)。在最后的質(zhì)檢和交付階段,需要進(jìn)行嚴(yán)格的質(zhì)量把控,將海量?jī)?yōu)質(zhì)且安全合規(guī)的數(shù)據(jù)交付給合作方。

華楠:

隨著AI越來越多的走進(jìn)大家的生活中,AI技術(shù)也在不斷進(jìn)化,AI 數(shù)據(jù)標(biāo)注以及算法有著哪些技術(shù)革新?

李科:

從數(shù)據(jù)的角度來講,現(xiàn)在的技術(shù)演進(jìn)是非常清晰的,主要是系統(tǒng)化和智能化。

在系統(tǒng)化方面,我們自主研發(fā)了大規(guī)模的標(biāo)注系統(tǒng)。能夠?qū)崿F(xiàn)項(xiàng)目管理、流程管理、人員管理、數(shù)據(jù)管理等功能,尤其是數(shù)據(jù)安全管理。

在智能化方面,我們也擁有自己的算法團(tuán)隊(duì),將算法運(yùn)用到數(shù)據(jù)的生產(chǎn)過程當(dāng)中,提升標(biāo)注的效率和準(zhǔn)確度。例如質(zhì)檢過程中,通過算法快速甄別出不合格的數(shù)據(jù),更好的進(jìn)行反饋和修改。

華楠:

訓(xùn)練AI需要大量的數(shù)據(jù)支撐,您認(rèn)為一個(gè)合格的AI至少需要使用多少數(shù)據(jù)進(jìn)行學(xué)習(xí)才能達(dá)到真正的智能化?

李科:

針對(duì)不同的場(chǎng)景,會(huì)有不同的要求。

通過公開資料我們可以了解到,最近非常火的ChatGPT大模型,它在訓(xùn)練過程中使用的數(shù)據(jù)是5000億個(gè)token(token為語言中最小的語義單位,在英文中等于一個(gè)單詞,在中文中等于一個(gè)詞語)。但在自動(dòng)駕駛場(chǎng)景,即便只是一個(gè)車道線識(shí)別,我們通常給合作方提供的數(shù)據(jù)都是在幾十萬幀到上百萬幀的級(jí)別。

而語音識(shí)別場(chǎng)景則不同,谷歌此前公布的一個(gè)語音識(shí)別模型,可以識(shí)別100多種語言,使用了約1200萬小時(shí)的數(shù)據(jù)進(jìn)行訓(xùn)練。但有時(shí)也可以使用數(shù)千或者數(shù)萬小時(shí)進(jìn)行單一語種的語音識(shí)別模型的訓(xùn)練??偨Y(jié)來說,還是要看數(shù)據(jù)所應(yīng)用的具體場(chǎng)景具體分析。

華楠:

對(duì)于最近大熱的ChatGPT我們會(huì)感慨到它的邏輯清晰,連續(xù)回答,像這樣的模型訓(xùn)練量大概需要多少數(shù)據(jù),才能保證他有這樣的強(qiáng)大的能力?

李科:

ChatGPT在訓(xùn)練數(shù)據(jù)層面有兩大關(guān)鍵點(diǎn)。

第一個(gè)是基于大規(guī)模的數(shù)據(jù)。像我剛才提到的5000億個(gè)token這種級(jí)別的數(shù)據(jù),進(jìn)行大模型的初始訓(xùn)練。

第二個(gè)是運(yùn)用了RLHF基于人類反饋的強(qiáng)化學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)的過程中大概使用了1-3萬數(shù)量級(jí)的人類反饋,正是通過人類反饋來進(jìn)行強(qiáng)化學(xué)習(xí),才可以使得ChatGPT最終呈現(xiàn)出非常好的效果。

華楠:

國(guó)內(nèi)也有很多從事相關(guān)研發(fā)的企業(yè),其數(shù)據(jù)能力如何?與ChatGPT還有多少差距?

李科:

首先ChatGPT的很多數(shù)據(jù)是從公開來源獲取的,其中較大的數(shù)據(jù)集包括一個(gè)通用數(shù)據(jù)集約4000多億個(gè)token,還有兩個(gè)書籍?dāng)?shù)據(jù)集,以及Wikipedia數(shù)據(jù)集。

另外一個(gè)重要的數(shù)據(jù),就是RLHF基于人類反饋的強(qiáng)化學(xué)習(xí)數(shù)據(jù),這個(gè)數(shù)據(jù)集由OpenAI自行研發(fā),通過很多規(guī)則處理數(shù)據(jù)。這個(gè)數(shù)據(jù)集并未公開,是ChatGPT最終達(dá)到這么好的效果的關(guān)鍵因素。

從目前國(guó)內(nèi)的情況來看,獲得公開數(shù)據(jù)集是相對(duì)容易的,但其自研的數(shù)據(jù)需要我們?nèi)斯ぶ悄軓臉I(yè)者共同探索,如何提升技術(shù)能力達(dá)到ChatGPT的最終效果。

華楠:

最后一個(gè)問題,目前傳統(tǒng)的數(shù)據(jù)來源主要還是依靠大量的人工進(jìn)行標(biāo)注,在未來很長(zhǎng)一段時(shí)間內(nèi),這種模式是否成為訓(xùn)練數(shù)據(jù)的主要來源?

李科:

首先,認(rèn)為數(shù)據(jù)標(biāo)注是一個(gè)純手動(dòng)標(biāo)注的工作,是有一定程度誤解的。我們是非常注重研發(fā)能力的企業(yè),包括我們的平臺(tái)、算法、項(xiàng)目管理等各方面,只有通過不斷的技術(shù)創(chuàng)新才能夠更好的提升整體的質(zhì)量與效率。

其次,我個(gè)人認(rèn)為在短期內(nèi),人工標(biāo)注不太容易被取代。數(shù)據(jù)標(biāo)注可以理解為將人類的知識(shí)教給計(jì)算機(jī),計(jì)算機(jī)才能夠進(jìn)行相關(guān)識(shí)別。我們自己也常說,其實(shí)我們就像是在為人工智能制作教材,幫助人工智能學(xué)習(xí)判斷和推理。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )