平安科技聯(lián)邦學(xué)習(xí)技術(shù)成果入選EMNLP2020,業(yè)內(nèi)聯(lián)邦學(xué)習(xí)NLP模型重磅發(fā)布

近日,平安科技聯(lián)邦學(xué)習(xí)技術(shù)團(tuán)隊(duì)的論文《Empirical Studies of Institutional Federated Learning For Natural Language Processing》(聯(lián)邦學(xué)習(xí)框架中自然語言處理模型的實(shí)證研究)被自然語言處理(NLP)方向的國際學(xué)術(shù)會(huì)議EMNLP 2020收錄。

一年一度的全球?qū)W術(shù)大會(huì)EMNLP是計(jì)算機(jī)語言學(xué)和自然語言處理領(lǐng)域最受關(guān)注的國際學(xué)術(shù)會(huì)議之一,由國際語言學(xué)會(huì)(ACL)旗下SIGDAT組織。其中,會(huì)議涵蓋的語義理解、文本理解、信息提取、信息檢索和機(jī)器翻譯等多項(xiàng)技術(shù)主題,是當(dāng)今學(xué)術(shù)界和工業(yè)界備受關(guān)注的熱點(diǎn)方向。EMNLP 2020一共收到投稿3114篇,其中錄用754篇,錄用率不到25%。在即將召開的EMNLP學(xué)術(shù)會(huì)議,來自全球的杰出學(xué)者及研究人員將共聚一堂,展示自然語言處理領(lǐng)域的前沿研究成果。這些成果,將代表著相關(guān)領(lǐng)域和技術(shù)細(xì)分中的研究水平以及未來發(fā)展方向。

平安聯(lián)邦學(xué)習(xí)技術(shù)團(tuán)隊(duì)近來已發(fā)布多項(xiàng)頗具顯示度和開創(chuàng)性的科研成果,而這篇論文也是業(yè)界發(fā)表的在聯(lián)邦學(xué)習(xí)框架下實(shí)現(xiàn)NLP模型訓(xùn)練的創(chuàng)新性研究成果,是繼聯(lián)邦學(xué)習(xí)團(tuán)隊(duì)在咳嗽檢測COVID-19智能系統(tǒng)、Occam自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)研發(fā)后獲得的又一個(gè)創(chuàng)新性的突破,再一次得到了全球?qū)<业恼J(rèn)可,同時(shí)也成功部署到蜂巢聯(lián)邦智能平臺(tái)計(jì)算引擎中,該項(xiàng)成果代表著團(tuán)隊(duì)在聯(lián)邦學(xué)習(xí)和自然語言處理結(jié)合領(lǐng)域的技術(shù)領(lǐng)先地位。

業(yè)內(nèi)聯(lián)邦學(xué)習(xí)NLP模型重磅發(fā)布

聯(lián)邦學(xué)習(xí)為深度學(xué)習(xí)提供了一種數(shù)據(jù)可用不可見的訓(xùn)練方式,因而在深度學(xué)習(xí)領(lǐng)域激起了新的熱潮。利用大量的訓(xùn)練樣本,深度學(xué)習(xí)能夠?qū)W習(xí)到幾乎任意任務(wù)的數(shù)學(xué)模型。然而,由于用戶隱私政策、數(shù)據(jù)監(jiān)管法規(guī)的限制,很多數(shù)據(jù)碎片化地保存在不同機(jī)構(gòu)的數(shù)據(jù)庫里,傳統(tǒng)的深度學(xué)習(xí)方法將無法在這樣的數(shù)據(jù)上進(jìn)行訓(xùn)練,聯(lián)邦學(xué)習(xí)正是為了解決這樣的數(shù)據(jù)孤島問題應(yīng)運(yùn)而生。

平安科技聯(lián)邦學(xué)習(xí)技術(shù)成果入選EMNLP2020,業(yè)內(nèi)聯(lián)邦學(xué)習(xí)NLP模型重磅發(fā)布

圖1 差分隱私保護(hù)的聯(lián)邦學(xué)習(xí)系統(tǒng)架構(gòu)圖

(圖中不同灰度的背景顏色代表著不同的安全保護(hù)邊界)

隨著新的訓(xùn)練方法和計(jì)算硬件的發(fā)展,聯(lián)邦學(xué)習(xí)被越來越多地應(yīng)用到圖像、語音、文本等多種數(shù)據(jù)的任務(wù)訓(xùn)練中。在論文中,團(tuán)隊(duì)在支持GPU的服務(wù)器群集上成功部署了聯(lián)邦自然語言處理網(wǎng)絡(luò)。以一個(gè)常用的NLP模型:TextCNN為例,展示了聯(lián)邦學(xué)習(xí)在自然語言處理領(lǐng)域的應(yīng)用潛力。此外,團(tuán)隊(duì)在聯(lián)邦網(wǎng)絡(luò)訓(xùn)練過程中引入了可管理的差分隱私技術(shù),有效保護(hù)了聯(lián)邦學(xué)習(xí)參與者的數(shù)據(jù)安全(見圖1)。與現(xiàn)有的客戶端級(jí)別的隱私保護(hù)方案不同,團(tuán)隊(duì)提出的差分隱私是定義在數(shù)據(jù)集樣本級(jí)別的,這與目標(biāo)場景——機(jī)構(gòu)間的聯(lián)邦合作訓(xùn)練是一致的。通過綜合大量實(shí)驗(yàn)分析,團(tuán)隊(duì)研究了聯(lián)邦學(xué)習(xí)框架下TextCNN模型的超參數(shù)的最佳設(shè)置并評(píng)估了在不均衡數(shù)據(jù)負(fù)載情況下,差分隱私要求對(duì)聯(lián)邦TextCNN模型的性能影響。

實(shí)驗(yàn)表明,在聯(lián)邦模型訓(xùn)練過程中,本地訓(xùn)練使用的采樣率對(duì)FL模型的性能有很大的影響,可能導(dǎo)致測試精度下降達(dá)38.4%。

另一方面,聯(lián)邦學(xué)習(xí)對(duì)差分隱私使用的不同的噪聲乘數(shù)級(jí)別具有較強(qiáng)的魯棒性,在一系列不同噪聲級(jí)別的實(shí)驗(yàn)中,測試精度的變化小于3% (見圖2)。然而,聯(lián)邦訓(xùn)練對(duì)客戶端數(shù)據(jù)集之間的數(shù)據(jù)負(fù)載均衡性比較敏感。當(dāng)數(shù)據(jù)負(fù)載不均衡時(shí),模型性能最多下降了10%。這些重要的實(shí)驗(yàn)數(shù)據(jù)展示出,在聯(lián)邦學(xué)習(xí)系統(tǒng)中部署一個(gè)實(shí)際可用的具有差分隱私保護(hù)的自然語言處理深度模型的可行性,并揭示了在不同程度的差分隱私保護(hù)要求下對(duì)系統(tǒng)參數(shù)的調(diào)整策略,為模型的實(shí)際部署提供了可靠的數(shù)據(jù)支撐。

平安科技聯(lián)邦學(xué)習(xí)技術(shù)成果入選EMNLP2020,業(yè)內(nèi)聯(lián)邦學(xué)習(xí)NLP模型重磅發(fā)布

圖2 實(shí)驗(yàn)結(jié)果圖

(在不同的差分隱私保護(hù)程度σ設(shè)置下,聯(lián)邦TextCNN模型的訓(xùn)練和測試精度變化記錄。在σ限制不同時(shí),固定相同的batch size,對(duì)應(yīng)不同的client數(shù)據(jù)集大小可能導(dǎo)致訓(xùn)練迭代次數(shù)的限制,因此部分訓(xùn)練曲線在未完全收斂時(shí)被迫中止)

蜂巢聯(lián)邦智能平臺(tái)

人工智能的發(fā)展需要大量數(shù)據(jù),而大數(shù)據(jù)時(shí)代下,隱私是最易觸犯的紅線。如何有效解決當(dāng)下人工智能領(lǐng)域發(fā)展的難題?聯(lián)邦學(xué)習(xí)成為當(dāng)下最熱門的技術(shù)研究方向之一。在這樣的背景下,平安科技聯(lián)邦學(xué)習(xí)技術(shù)團(tuán)隊(duì)自主研發(fā)的蜂巢聯(lián)邦智能平臺(tái)也成為了解決當(dāng)下數(shù)據(jù)難題與隱私保護(hù)的一大利器。

平安科技聯(lián)邦學(xué)習(xí)技術(shù)成果入選EMNLP2020,業(yè)內(nèi)聯(lián)邦學(xué)習(xí)NLP模型重磅發(fā)布

圖3 蜂巢聯(lián)邦智能平臺(tái)示意圖

橫縱建模,多角度為打破數(shù)據(jù)孤島

在實(shí)際的數(shù)據(jù)運(yùn)用中,即便是同一家公司內(nèi)的不同子公司或部門,也需要保護(hù)數(shù)據(jù)隱私。以平安集團(tuán)為例,平安的財(cái)險(xiǎn)和壽險(xiǎn)各自擁有不同維度的用戶數(shù)據(jù),卻很難把數(shù)據(jù)直接合并在一起來做建模。從“蜂巢”最初的架構(gòu)設(shè)計(jì)上,平安科技就考慮到平安集團(tuán)各個(gè)業(yè)務(wù)線與子公司之間存在數(shù)據(jù)壁壘的問題。同樣的“數(shù)據(jù)不通”也反應(yīng)在企業(yè)與企業(yè)、企業(yè)與政府之間,每家機(jī)構(gòu)都有自己的數(shù)據(jù),而基于隱私保護(hù)等原因,企業(yè)或政府?dāng)?shù)據(jù)不能對(duì)外進(jìn)行共享。

平安科技聯(lián)邦學(xué)習(xí)技術(shù)團(tuán)隊(duì)研發(fā)的聯(lián)邦智能平臺(tái)蜂巢,就是解決企業(yè)數(shù)據(jù)孤島問題的商用級(jí)解決方案。它能夠讓參與方在不共享原始數(shù)據(jù)的基礎(chǔ)上聯(lián)合建模,從技術(shù)上打破數(shù)據(jù)孤島,從而綜合化標(biāo)簽數(shù)據(jù),豐富用戶畫像維度,從整體上提升模型的效果,實(shí)現(xiàn) AI 協(xié)作。

“蜂巢”下的加密運(yùn)算,兼顧隱私保護(hù)與使用效率

如何在聯(lián)邦智能平臺(tái)保護(hù)數(shù)據(jù)隱私?數(shù)據(jù)加密是聯(lián)邦學(xué)習(xí)的一個(gè)重要環(huán)節(jié)。假設(shè)用戶的一個(gè)是數(shù)字“12”,經(jīng)過公鑰加密后會(huì)變成一個(gè)16位的字符串,這是加密最普遍的方式之一。平安科技聯(lián)邦智能平臺(tái)蜂巢可以在保護(hù)用戶隱私的前提下建模,讓原始數(shù)據(jù)不離開用戶,建模所交換的是模型的中間參數(shù)和梯度,這便能做到最大程度保護(hù)用戶隱私。同樣是數(shù)據(jù)加密的問題,由于將數(shù)據(jù)本身復(fù)雜化,平臺(tái)所耗費(fèi)的計(jì)算資源也比原來更大。對(duì)此平安科技聯(lián)邦智能平臺(tái)蜂巢則采用GPU等異構(gòu)計(jì)算芯片來加速聯(lián)邦學(xué)習(xí)的加密和通信過程,從而達(dá)到效率升級(jí)的效果。

對(duì)于用戶數(shù)據(jù)隱私保護(hù),不同行業(yè)有著不同的加密要求。在銀行領(lǐng)域,銀保監(jiān)會(huì)建議對(duì)數(shù)據(jù)進(jìn)行國密加密,對(duì)加密的穩(wěn)定性、安全性、合規(guī)性要求更高。而平安科技是為數(shù)不多的支持國密級(jí)加密的企業(yè)平臺(tái)。平安科技聯(lián)邦智能平臺(tái)蜂巢充分支持了國密SM2、國密SM4以及混淆電路、差分隱私和同態(tài)加密等不同的加密方式,以滿足企業(yè)各個(gè)業(yè)務(wù)場景的不同需求。

聯(lián)邦學(xué)習(xí)作為一個(gè)重要的新技術(shù)方向,未來有著廣闊的發(fā)展空間,但在實(shí)際落地中,在保護(hù)數(shù)據(jù)隱私的前提下進(jìn)行 AI 協(xié)同,無論是底層技術(shù)還是整個(gè)部署環(huán)節(jié),還有大量的挑戰(zhàn)需要克服。平安科技聯(lián)邦智能平臺(tái)蜂巢,也將不斷深耕技術(shù),幫助企業(yè)在數(shù)據(jù)融合及隱私保護(hù)上實(shí)現(xiàn)進(jìn)一步突破。同時(shí),自然語言處理是人工智能最受矚目的發(fā)展方向之一,在金融、零售、醫(yī)療等領(lǐng)域有著廣闊的應(yīng)用場景,也是智能座席、智能客服的重要技術(shù)基礎(chǔ)。聯(lián)邦學(xué)習(xí)在自然語言處理的初步嘗試,展示了未來聯(lián)邦學(xué)習(xí)系統(tǒng)在該方向聯(lián)合多方個(gè)人用戶數(shù)據(jù),突破現(xiàn)有技術(shù)瓶頸的潛力。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )