數(shù)據(jù)孤島下的 AI 向善與聯(lián)邦遷移學習

9 月 4 日 - 6 日,由中國中文信息學會社會媒體處理專委會主辦,浙江大學承辦的第九屆全國社會媒體處理大會(SMP 2020)在線上召開。

會議集結了包括潘云鶴院士、楊強教授在內(nèi)的多名頂尖科學家、企業(yè)家與研究者,暢談從自然語言到大數(shù)據(jù)智能,從社交機器人到計算傳播學,研究金融科技、教育以及技術投資等最前沿的科技話題。

作為特邀重磅嘉賓,香港科技大學計算機與工程系,同時也是微眾銀行首席人工智能執(zhí)行官的楊強教授,發(fā)表了題為 “數(shù)據(jù)孤島:AI 向善與聯(lián)邦遷移學習” 的演講。

楊強教授是人工智能業(yè)界的國際專家,在學術界和工業(yè)界做出了許多貢獻,尤其近些年為中國人工智能和數(shù)據(jù)挖掘的發(fā)展起到了重要的作用。

他是國際人工智能界 “遷移學習” 領域的發(fā)起人和帶頭人,同時為國際 “聯(lián)邦學習” 的發(fā)起人之一及帶頭人。他當選為國際人工智能協(xié)會(AAAI)院士,成為第一位獲此殊榮的華人,之后又當選為 AAAI 執(zhí)行委員會委員,是首位 AAAI 華人執(zhí)委,同時他也是第一位擔任 IJCAI 理事會主席的華人科學家。

學術君就楊強教授在論壇中的精彩演講進行整理,內(nèi)容略有刪改:

非常榮幸在 SMP 開場的時候有機會和大家交流我最近的一些研究心得。題目的緣起是數(shù)據(jù)孤島和 AI,我們知道現(xiàn)在 AI 的熱潮主要來自深度學習,而深度學習是離不開大數(shù)據(jù)的,但是其實我們周邊更多看到的是小數(shù)據(jù),數(shù)據(jù)難以獲取、質(zhì)量差的情況普遍存在,這些稱為 “數(shù)據(jù)孤島”,而且這些數(shù)據(jù)同時受到法律法規(guī)的限制,大部分不能進行使用,由此對各行業(yè)研究有一定影響。

面臨這樣的挑戰(zhàn),我們做技術的研究人員應該有對策,我們的對策有兩條,一條是面對小數(shù)據(jù),我們利用在別的地方獲取大數(shù)據(jù)的經(jīng)驗,把這種知識遷移到小數(shù)據(jù)領域來。而我們作為人在解決問題的時候也經(jīng)常使用這么一種遷移能力,像在教育領域,就有一個詞叫 “學習遷移”,大致意思是學習能力比學習內(nèi)容更重要。

第二個辦法呢,我們知道知識常常散落在不同的地方,那么我們要把數(shù)據(jù)匯聚起來,形成大數(shù)據(jù),往往是不能用簡單粗暴的辦法把數(shù)據(jù)聚集在一起。那么有一個更巧妙的辦法,把模型建立起來,但是不用把數(shù)據(jù)匯聚起來。這里舉一個例子,遷移學習就像一個老師在教一個學生,老師把自己的知識遷移到學生的大腦。那聯(lián)邦學習就像一群大學生形成一個學習小組,來共同解決一個問題,大家都是單獨的研究人員,但是在合作的時候形成互補,使得 1+1>2。那么今天的主題就是小數(shù)據(jù)能不能聚合成大數(shù)據(jù)。

首先是“ 數(shù)據(jù)不動,模型動 ”的思想,意思是說把數(shù)據(jù)保留在本地,那么模型參數(shù)可以在加密的狀態(tài)下進行溝通,最后希望得到的模型的效果和這些數(shù)據(jù)物理聚合在一起的效果是差不多的,有幾種辦法可以達到這一點。一種辦法是按樣本分割,橫向切割數(shù)據(jù),為了把所使用的數(shù)據(jù)量擴大,在本地建立帶有參數(shù)的模型,把這些參數(shù)加密,然后整合到中心服務器,在加密的情況下進行操作。

除了橫向切割,還有縱向切割數(shù)據(jù),不同的數(shù)據(jù)集不同點在于特征不一樣。比如對于一家醫(yī)院,它擅長做 CT 掃描,另一家醫(yī)院擅長做核酸檢測,如果將兩者合起來,特征空間就會變大,我們的模型也會變好,這種合并并沒有增加樣本量,因此叫做縱向。

聯(lián)邦學習是一種手段,能夠讓不同的數(shù)據(jù)集合理合法合規(guī)地把模型建立起來,同時盡量不讓數(shù)據(jù)出本地,讓參數(shù)保密。由此也出現(xiàn)一些研究問題,比如算法是否合規(guī),是否安全?若有壞人是參與方,我們是否能識別出來,能否防御?除此外,算法是加密條件下的分布式機器學習,那還需要考慮兩個數(shù)據(jù)集不是同構或同分布的問題。

一個技術的興起離不開大范圍的應用,所以我們建立了一個聯(lián)盟機制,它需要多個參與方的參與,而擁有數(shù)據(jù)孤島的參與方越早參與越有利。首先加入聯(lián)盟,需要參與到訓練聯(lián)邦,之后產(chǎn)出一定的效果,這個效果屬于整個聯(lián)盟,同時聯(lián)盟也有一個分紅機制,早加入貢獻大的可以獲得較多獎勵。

但是如何持續(xù)吸引參與方加入聯(lián)盟呢?這就需要我們不僅僅建立像經(jīng)濟學和博弈論的模型,同時還需要一個模擬的場景,那么這個場景就是我們最近研究的,需要考慮有哪些合理的激勵機制,比較公平的分配方案。因此參與者可以看到通過聯(lián)盟得到的收益以及需要它投入的成本。

12下一頁>

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2020-09-08
數(shù)據(jù)孤島下的 AI 向善與聯(lián)邦遷移學習
9 月 4 日 - 6 日,由中國中文信息學會社會媒體處理專委會主辦,浙江大學承辦的第九屆全國社會媒體處理大會(SMP 2020)在線上召開。

長按掃碼 閱讀全文