云天勵(lì)飛人工智能技術(shù)研究多項(xiàng)成果再獲國(guó)際認(rèn)可。近日,將于今年4月在日本舉行的人工智能領(lǐng)域一大頂級(jí)學(xué)術(shù)會(huì)議——人工智能及統(tǒng)計(jì)學(xué)大會(huì)(International Conference on Artificial Intelligence and Statistics,簡(jiǎn)稱(chēng)AISTATS會(huì)議)收錄結(jié)果揭曉,云天勵(lì)飛AI技術(shù)部王孝宇博士與美國(guó)愛(ài)荷華大學(xué)楊天寶教授領(lǐng)導(dǎo)的團(tuán)隊(duì)合作的論文《A Robust Zero-Sum Game Framework for Pool-based Active Learning》入選。該論文提出了一種基于穩(wěn)健優(yōu)化的博弈主動(dòng)學(xué)習(xí)算法,這有助于節(jié)省多種監(jiān)督學(xué)習(xí)的標(biāo)注成本。而在不久前,云天勵(lì)飛另一篇有關(guān)采用遞歸網(wǎng)絡(luò)模型解決視頻人臉關(guān)鍵點(diǎn)定位的論文被計(jì)算機(jī)視覺(jué)頂級(jí)學(xué)術(shù)期刊IJCV收錄。
用遞歸神經(jīng)網(wǎng)絡(luò) 為人臉關(guān)鍵點(diǎn)檢測(cè)建立時(shí)間和空間聯(lián)系
云天勵(lì)飛被IJCV 2018收錄的論文名為《RED-Net: A Recurrent Encoder-Decoder Network for Video-based Face Alignment》,團(tuán)隊(duì)在業(yè)界首次提出采用遞歸網(wǎng)絡(luò)模型解決視頻人臉關(guān)鍵點(diǎn)定位問(wèn)題,以此來(lái)減少訓(xùn)練模型的復(fù)雜度,并實(shí)現(xiàn)對(duì)大姿態(tài)人臉和部分遮擋關(guān)鍵點(diǎn)的精確定位。此項(xiàng)工作的參與成員還包括IBM Watson研究院和新澤西州立大學(xué)。
Overview of the recurrent encoder-decoder network: (a) encoder-decoder (Section 3.1); (b) spatial recurrent learning (Section 3.2); (c) temporal recurrent learning (Section 3.3); and (d) supervised identity disentangling (Section 3.4). fenc, fdec, fsr n, ft r n, fc l s are potentially nonlinear and multi-layered mappings
據(jù)悉,傳統(tǒng)視頻人臉關(guān)鍵點(diǎn)檢測(cè)通常使用級(jí)聯(lián)化的的關(guān)鍵點(diǎn)坐標(biāo)回歸模型對(duì)關(guān)鍵點(diǎn)進(jìn)行由粗到細(xì)的定位。在進(jìn)行視頻逐幀人臉關(guān)鍵點(diǎn)定位時(shí),通過(guò)使用上一幀人臉的檢測(cè)框和關(guān)鍵點(diǎn)信息對(duì)該幀的定位任務(wù)進(jìn)行更精確的初始化。這類(lèi)級(jí)聯(lián)回歸模型不同級(jí)間并不共享參數(shù),模型訓(xùn)練對(duì)數(shù)據(jù)量的要求較高。
An unrolled illustration of spatial recurrent learning. The response map is pretty coarse when the initial guess is far away from the ground truth if large pose and expression exist. It eventually gets refined in the successive recurrent steps
云天勵(lì)飛團(tuán)隊(duì)等在論文中提出了一種新的遞歸編碼解碼器(Recurrent Decoder-Encoder)模型結(jié)構(gòu)來(lái)解決視頻人臉關(guān)鍵點(diǎn)定位問(wèn)題。在空間域上,該模型變傳統(tǒng)多級(jí)級(jí)聯(lián)模型為單一遞歸模型,大幅度減少模型的復(fù)雜度。在時(shí)間域上,該模型將編碼器生成的嵌入特征中的時(shí)變因素和時(shí)不變因素進(jìn)行解耦,并對(duì)時(shí)變部分用遞歸網(wǎng)絡(luò)進(jìn)行建模學(xué)習(xí)。
An unrolled illustration of temporal recurrent learning. Cid encodes temporalinvariant factor which subjects to the same identity constraint. Cpe encodes temporalvariant factors which is further modeled in ft R N N
相比傳統(tǒng)視頻人臉關(guān)鍵點(diǎn)處理中只使用上一幀結(jié)果初始化,這種時(shí)域遞歸網(wǎng)絡(luò)能夠?qū)W習(xí)和利用更長(zhǎng)時(shí)間范圍內(nèi)關(guān)鍵點(diǎn)的位置信息和變化規(guī)律,實(shí)現(xiàn)對(duì)大姿態(tài)人臉和部分遮擋關(guān)鍵點(diǎn)實(shí)現(xiàn)精確定位。
據(jù)介紹,與國(guó)際主流方法相比較,在7關(guān)鍵點(diǎn)和68關(guān)鍵點(diǎn)兩種模式下,采用遞歸網(wǎng)絡(luò)模型定位視頻人臉關(guān)鍵點(diǎn)的方法,在Talking Face, Face Moive 和 300VW 三個(gè)公開(kāi)數(shù)據(jù)集平均誤差都顯著低于這些主流方法。
將模型訓(xùn)練和標(biāo)注選取結(jié)合 提升模型訓(xùn)練效果
大數(shù)據(jù)時(shí)代來(lái)臨,人工智能領(lǐng)域面臨的一大難題是如何獲取監(jiān)督學(xué)習(xí)所需要的大數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)標(biāo)注。對(duì)于監(jiān)督學(xué)習(xí)來(lái)說(shuō),并不是每個(gè)標(biāo)注數(shù)據(jù)對(duì)模型訓(xùn)練的幫助程度都是等同的,即有些數(shù)據(jù)對(duì)模型訓(xùn)練幫助更大。而主動(dòng)學(xué)習(xí)則是研究如何選取潛在對(duì)模型訓(xùn)練更大的未標(biāo)注數(shù)據(jù)去給予它們標(biāo)注,從而達(dá)到提升模型訓(xùn)練效果、節(jié)省人工標(biāo)注成本的目的。
不過(guò),目前已存在的主動(dòng)學(xué)習(xí)算法大多或是基于分類(lèi)模型產(chǎn)生的數(shù)據(jù)不確定性并利用一些啟發(fā)式策略進(jìn)行標(biāo)注數(shù)據(jù)選取;或是利用其它理論如信息理論、學(xué)習(xí)理論定義數(shù)據(jù)不確定性并產(chǎn)生一些優(yōu)化式策略進(jìn)行標(biāo)注數(shù)據(jù)選取。
分開(kāi)進(jìn)行標(biāo)注數(shù)據(jù)選取和模型訓(xùn)練可能會(huì)存在二者步調(diào)不統(tǒng)一的情況,從而無(wú)法得最優(yōu)的結(jié)果?!禔 Robust Zero-Sum Game Framework for Pool-based Active Learning》提出的思路并不像之前其它算法那樣把模型訓(xùn)練和標(biāo)注選取兩個(gè)模塊割裂開(kāi)來(lái),而是利用博弈論將其結(jié)合在一起,并引入穩(wěn)健約束進(jìn)行優(yōu)化,以獲得最直接的標(biāo)注數(shù)據(jù)選取,以及模型訓(xùn)練效果的提升。
作者基于博弈論提出的優(yōu)化目標(biāo)函數(shù)如下:
其中w代表模型參數(shù),如支持向量機(jī)(SVM),深度神經(jīng)網(wǎng)絡(luò)(DNN)等;p為單個(gè)數(shù)據(jù)產(chǎn)生的損失的權(quán)重(由于是主動(dòng)學(xué)習(xí)場(chǎng)景,考慮到存在未標(biāo)注數(shù)據(jù),作者使用的是對(duì)于所有可能標(biāo)注的期望損失
作者采取在線梯度下降(online gradient descent)更新模型參數(shù)w:
作者采取鏡像下降(mirror descent)更新數(shù)據(jù)損失權(quán)重p:
由于加入了穩(wěn)健約束,作者利用近似映射的方法矯正p:
對(duì)于方差小的數(shù)據(jù),加入穩(wěn)健約束可以獲得更好的模型泛化效果:
當(dāng)數(shù)據(jù)方差數(shù)量級(jí)小于1/n時(shí),泛化錯(cuò)誤將為O(1/n)而不是通常的O(1/sqrt(n)).
此外,作者運(yùn)用了在線算法的分析思路證明了算法收斂的遺憾界限(regret bound):
最后,作者進(jìn)行了對(duì)于SVM和DNN的主動(dòng)學(xué)習(xí)實(shí)驗(yàn),并采用了一些知名機(jī)器學(xué)習(xí)算法效果對(duì)比數(shù)據(jù)集(benchmark datasets),效果如下 (橫軸為標(biāo)注數(shù)據(jù)數(shù)目,縱軸為測(cè)試準(zhǔn)確度,RZSG為論文提出的算法):
MNIST
CIFAR 10
- 剪映海外版回歸美國(guó):短視頻創(chuàng)作工具再戰(zhàn)江湖
- 全球IT大手筆:數(shù)據(jù)中心系統(tǒng)支出飆升,去年IT支出破5萬(wàn)億美元
- 蘋(píng)果市值一夜蒸發(fā)超千億美元,蔚來(lái)機(jī)器狗項(xiàng)目蓄勢(shì)待發(fā),科技巨頭風(fēng)云變幻
- 比亞迪印尼工廠年底竣工:投資10億造新能源車(chē),年產(chǎn)能達(dá)15萬(wàn)輛,加速東南亞綠色出行
- 蔚來(lái)汽車(chē)銷(xiāo)量飆漲,1月前三周同比猛增近150%,領(lǐng)跑新能源汽車(chē)市場(chǎng)
- 谷歌押注AI未來(lái),向Anthropic新投10億美元,搶占OpenAI競(jìng)爭(zhēng)高地
- 春節(jié)臨近,打車(chē)需求大漲,哈爾濱三亞異地需求成熱點(diǎn)
- 本田汽車(chē)AEB系統(tǒng)問(wèn)題引爆美國(guó)監(jiān)管機(jī)構(gòu)調(diào)查:30萬(wàn)輛車(chē)遭殃,消費(fèi)者權(quán)益受挑戰(zhàn)
- 中國(guó)制造崛起:2024年破繭而出,超40萬(wàn)億產(chǎn)值領(lǐng)跑全球,創(chuàng)新力破繭成蝶
- 印尼與蘋(píng)果接近達(dá)成投資協(xié)議:iPhone 16系列有望重返印尼市場(chǎng)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。