GAITC智能傳媒專題|任奎:人工智能安全評測助推大模型健康發(fā)展

6月23日,由中國人工智能學(xué)會主辦,CAAI 智能傳媒專業(yè)委員會、中國傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院、媒體融合與傳播國家重點實驗室、新浪新聞承辦的主題為“變量激蕩 增量涌現(xiàn)”2024全球人工智能技術(shù)大會 智能傳媒專題活動在杭州拉開帷幕。浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院院長、區(qū)塊鏈與數(shù)據(jù)安全全國重點實驗室常務(wù)副主任任奎教授分享了題為《大模型時代人工智能安全與評測》的演講。

任奎教授主題演講中。

以下是任奎教授演講實錄,內(nèi)容經(jīng)編輯略有刪減:

非常高興有機會在這里介紹浙大網(wǎng)安團隊的工作。今天報告主要包括浙大在人工智能安全平臺開發(fā)上的一些成果。當前,人工智能已成為全球大國博弈的關(guān)鍵領(lǐng)域,也是我國發(fā)展新質(zhì)生產(chǎn)力的重要引擎之一,人工智能的重要性及其對國家的科技戰(zhàn)略意義與影響不言自明。然而,人工智能的快速發(fā)展也引發(fā)了一系列的安全問題。本次報告將主要從人工智能安全評測、深度合成檢測、合成內(nèi)容標識這三個方面介紹團隊的工作。這些工作各自從不同的維度應(yīng)對當前AI發(fā)展過程中的多樣化的安全問題。

第一部分是人工智能安全的測評。隨著人工智能技術(shù)的廣泛應(yīng)用,安全問題日益凸顯。人工智能系統(tǒng)作為軟硬件結(jié)合的整體,在硬件、系統(tǒng)、框架、算法、模型、數(shù)據(jù)等多個層面面臨著安全威脅。近年來,人工智能安全事件層出不窮,包括2023年主流分布式AI框架Ray被發(fā)現(xiàn)安全漏洞導(dǎo)致巨額損失;訓(xùn)練數(shù)據(jù)污染導(dǎo)致GPT-3模型中毒;2024年AMD GPU硬件出現(xiàn)數(shù)據(jù)泄露漏洞等等。這些事件的發(fā)生,凸顯了人工智能安全的多維度特性。而妥善應(yīng)對人工智能安全需求,需要研究者從系統(tǒng)整體的角度來考慮安全問題。

人工智能安全攻防技術(shù)自出現(xiàn)以來就在快速迭代。從早期以對抗樣本、模型后門為主的算法和模型層面攻防,延伸到側(cè)信道、系統(tǒng)漏洞等軟硬件系統(tǒng)框架層面,再到近年來大模型的突破帶來的提示詞注入、安全護欄等新型安全挑戰(zhàn),這種持續(xù)的攻防博弈推動著人工智能安全技術(shù)的不斷進步。

面對復(fù)雜多樣的人工智能安全挑戰(zhàn),學(xué)術(shù)界和工業(yè)界已提出多個AI安全評測工具和平臺。然而,這些工具在應(yīng)對真實場景中未知多樣的攻擊手段、快速迭代的模型架構(gòu)等問題仍存在局限性。主要挑戰(zhàn)包括:安全風(fēng)險來源多、威脅感知難、模型算法缺乏可解釋性、因果溯源難、模型架構(gòu)模態(tài)多樣、評測工具適配困難等。

為應(yīng)對這些挑戰(zhàn),浙大網(wǎng)安團隊研發(fā)了人工智能安全評測平臺AIcert。該平臺具備多層面全棧威脅感知、多維度安全評估和模型自動化安全評測能力,支持10種人工智能系統(tǒng)23項安全測試任務(wù),自動化程度超過90%。平臺可適配多種深度學(xué)習(xí)任務(wù),支持主流開源大模型評測,并積累了千萬級的多模態(tài)數(shù)據(jù)基座和評測樣本。

AIcert平臺的核心能力體現(xiàn)在以下三個方面:首先是多層面全棧威脅感知。平臺支持從數(shù)據(jù)、模型、算法、開發(fā)框架、操作系統(tǒng)到硬件設(shè)備的多層面安全威脅識別。它可以感知對抗樣本、毒化數(shù)據(jù)、模型攻擊、開發(fā)框架漏洞、操作系統(tǒng)漏洞和硬件故障等多種威脅。其次是多維度安全評測基準。平臺構(gòu)建了魯棒性、可靠性、完整性、公平性、可解釋性、可驗證性六維安全評測基準,實現(xiàn)了人工智能系統(tǒng)決策因果分析可視化。這些維度涵蓋了算法魯棒性、系統(tǒng)可靠性、數(shù)據(jù)完整性、模型公平性、因果可解釋性和結(jié)果可驗證性等多個方面。

最后是模型自動化安全評測。平臺擁有22萬例樣本的評測數(shù)據(jù)庫,56種風(fēng)險合規(guī)檢測與57種魯棒性檢測的算法庫,具備多環(huán)境多模態(tài)的測試樣本自動生成能力。這為大規(guī)模、高效率的安全評測提供了基礎(chǔ)。

AIcert平臺自2024年3月開源發(fā)布以來,獲得了公安部、華為等多個政府部門和大型頭部企業(yè)的關(guān)注。浙大網(wǎng)安團隊還與電子技術(shù)標準化研究院等機構(gòu)合作,作為主要單位參與了相關(guān)國家標準的準備工作,聯(lián)合定期發(fā)布大模型安全評測榜單,評測范圍涵蓋了LLaMA、Gemma、Qwen、ChatGLM等35個開源大模型的合規(guī)性和魯棒性。不僅如此,AIcert平臺已在中車株洲智軌交通風(fēng)險評估系統(tǒng)、淘寶直播安全風(fēng)控框架、螞蟻集團金融場景AI安全評測等多個領(lǐng)域得到應(yīng)用,顯著提高了相關(guān)系統(tǒng)的決策準確性和安全性。

人工智能安全評測是一項具有挑戰(zhàn)性的工作,需要在持續(xù)的研究和在實踐中優(yōu)化。展望未來,浙大網(wǎng)安團隊將繼續(xù)聚焦大模型安全評測,著力構(gòu)建更準確的檢測方法、提升評測流程的效率、強化智能加固能力。目標是確保大模型在各類應(yīng)用場景中能夠安全、可靠、負責任地運行。這需要深入研究模型安全機理,突破大模型因果推理可解釋性分析技術(shù),構(gòu)建標準化評測體系,實現(xiàn)測試用例智能生成、評測模型自主學(xué)習(xí)、安全漏洞自動發(fā)現(xiàn),并開發(fā)魯棒性增強、后門檢測、對抗樣本防御等關(guān)鍵技術(shù)。期待通過AIcert平臺的不斷完善和應(yīng)用,為人工智能技術(shù)的安全發(fā)展做出貢獻,推動人工智能在各行各業(yè)的安全、可控應(yīng)用,最終實現(xiàn)新質(zhì)生產(chǎn)力的健康發(fā)展。

第二部分是深度合成檢測。當前,AIGC的安全問題日益嚴峻。從安全角度而言,合成的內(nèi)容可能導(dǎo)致各種各樣的風(fēng)險,這些安全風(fēng)險事件屢見不鮮,且呈現(xiàn)蔓延之勢。合成內(nèi)容的生成與檢測,實際上構(gòu)成了一場激烈的對抗性博弈。

從合成算法角度而言,從最早的VAE到后面的擴散模型等,合成算法一直在演進。從檢測的角度而言,檢測方法經(jīng)歷了手工特征提取偽造痕跡、卷積神經(jīng)網(wǎng)絡(luò)提取痕跡、預(yù)訓(xùn)練大模型提取痕跡等過程。檢測的內(nèi)容、內(nèi)涵和外延也在不斷擴展,舉一個例子,之前我們從沒考慮到特朗普在合成圖像里面的最明顯特征是他的那一撮黃頭發(fā),很多人用一小撮黃頭發(fā)的形象代表特朗普。另外,之前與網(wǎng)易易盾交流,我們也發(fā)現(xiàn)了一些例子,比如男性懷孕的偽造照片,也是我們前面想不到要去檢測的內(nèi)容?,F(xiàn)在AIGC技術(shù)成熟所催生的大量深度合成內(nèi)容導(dǎo)致安全攻擊面擴大、安全攻擊事件頻發(fā)。

浙大網(wǎng)安最近的一項研究工作,對Midjourney等生成大模型進行攻擊,使其能夠產(chǎn)生任意領(lǐng)導(dǎo)人的偽造圖像,生成任意色情、暴力、血腥的圖片。Midjourney等大模型其實是有安全護欄的,但我們的研究發(fā)現(xiàn)這些安全護欄很容易被一擊即穿。同時,研究還發(fā)現(xiàn)可以通過攻擊Midjourney這類的大模型,獲得它背后的訓(xùn)練數(shù)據(jù),即現(xiàn)在的商業(yè)大模型也存在訓(xùn)練數(shù)據(jù)泄露的風(fēng)險。

因此,圍繞著AIGC與合成內(nèi)容的攻防對抗,是安全技術(shù)博弈的最前沿之一。目前,深度偽造檢測技術(shù)整體上還處于初期階段,在合成算法未知、數(shù)據(jù)分布多樣的真實場景下檢測性能不足。檢測模型在檢測亞裔人臉時效果不佳。公開的人臉數(shù)據(jù)集主要是白人數(shù)據(jù)集,有2000多萬張。而亞洲人臉的數(shù)據(jù)集,公開可得的只有100多萬張,缺少亞裔訓(xùn)練數(shù)據(jù)導(dǎo)致合成內(nèi)容檢測模型對亞裔人臉檢測精度低。

針對這些問題,浙大網(wǎng)安團隊研發(fā)了合成內(nèi)容檢測平臺DFscan,支持語音和圖像的真?zhèn)螜z測、偽造區(qū)域定位,并輸出多維度的可視化結(jié)果分析報告。真?zhèn)螜z測是檢測輸入的語音或圖像是真的還是深度偽造合成的。偽造區(qū)域定位是標出這個圖片里偽造的區(qū)域在哪里或這個語音里偽造的片段在哪里,也就是進一步解釋我們檢測結(jié)果的判斷依據(jù)。

深度合成檢測平臺現(xiàn)在積累了100多種音視圖合成與檢測算法,收集圖像1500多萬張,音頻數(shù)據(jù)181萬條。與此同時,Sora等最新的大模型生成的視頻數(shù)據(jù)也被收集作為平臺的訓(xùn)練語料。深度合成檢測平臺也集成了自研的偽造特征解耦、檢測模型跨域遷移等創(chuàng)新前沿技術(shù),提升了未知偽造算法、亞裔數(shù)據(jù)上的精準率,達到90%的平均精度。并且集成了壓縮、亮度調(diào)整、翻轉(zhuǎn)、模糊等圖像干擾技術(shù)及混響、加噪等音頻數(shù)據(jù)增強技術(shù),以此實現(xiàn)了對社交媒體真實數(shù)據(jù)的檢測精度提升。

第三部分介紹合成內(nèi)容標識。合成內(nèi)容標識和前面介紹的檢測方法共同構(gòu)成了安全治理的一個重要維度。即使針對可信的參與方,對AI生成的內(nèi)容也需要嵌入相關(guān)標識。這是一種管理的方式,是一種侵權(quán)溯源的方式,也是一種版權(quán)保護的方式。嵌入的標識也有不同的功能和類型。例如,對于某個生成內(nèi)容,可以只是簡單的標識出它們是自然真實存在的還是由AI模型生成的。此外,標識還可以標記生成這些內(nèi)容的具體模型。更進一步,標識還可以同時標記用戶和模型。合成內(nèi)容標識在功能性上也可以進一步劃分,以滿足監(jiān)管的不同要求。

此外,合成內(nèi)容標識也需要滿足魯棒性標準,即確保水印標識在信道傳輸、壓縮等過程中,甚至是在有惡意攻擊者的情況下還能穩(wěn)定存在。總的來說,水印領(lǐng)域還有很大的發(fā)展前景,合成內(nèi)容水印技術(shù)的發(fā)展勢在必行。

然而,現(xiàn)在的AIGC水印產(chǎn)品只能實現(xiàn)簡單的標識功能,對更廣泛的AIGC場景支持并不完善,無法很好地滿足AIGC場景下的新需求,也缺乏相關(guān)標準規(guī)范。浙大網(wǎng)安團隊目前正與電子四院展開合作,希望通過制定相關(guān)技術(shù)標準來規(guī)范AIGC水印技術(shù)的開發(fā)和應(yīng)用。

為了應(yīng)對合成內(nèi)容水印標識當前面臨的問題,浙大網(wǎng)安團隊提出合成內(nèi)容安全水印平臺GCmark,實現(xiàn)以下兩種核心功能。一方面,實現(xiàn)合成內(nèi)容水印嵌入,該核心功能以支持責任主體溯源、內(nèi)容證偽、可證明魯棒性的三種水印算法作為技術(shù)底座,支撐責任主體判定、內(nèi)容證偽、版權(quán)保護三種關(guān)鍵能力。另一方面,實現(xiàn)合成內(nèi)容水印算法安全評測,從三大方面對水印算法進行評測,實現(xiàn)了信道傳輸攻擊、傳統(tǒng)的內(nèi)容修改攻擊、AIGC深度篡改等具有代表性的魯棒性評測技術(shù),這些基礎(chǔ)底座和關(guān)鍵能力都是完善的AIGC水印平臺所必不可少的。

未來,平臺將進一步實現(xiàn)多種前沿技術(shù)功能,開發(fā)實時性水印、可繼承水印和細粒度溯源等前沿技術(shù),將生成內(nèi)容與模型和用戶緊緊耦合在一起。這是GCmark平臺將要繼續(xù)深入探索的功能和場景,希望能為AIGC應(yīng)用發(fā)展進一步賦能。

以上三方面是浙大網(wǎng)安對人工智能安全的探索研究以及實用化的一些成果。目前浙大建設(shè)有區(qū)塊鏈與數(shù)據(jù)安全全國重點實驗室,實驗室面向國民經(jīng)濟主戰(zhàn)場、面向卡脖子技術(shù)、面向國家重大需求,開展有組織的科研,力求在關(guān)鍵問題上實現(xiàn)重大突破與創(chuàng)新。在人工智能安全方面,浙大網(wǎng)安認為人工智能,尤其是大模型,是未來數(shù)據(jù)最大的使用者,也是數(shù)據(jù)最大的生產(chǎn)者。數(shù)據(jù)安全是國重實驗室的重點研究領(lǐng)域,而人工智能的數(shù)據(jù)安全則是我們在其中布局的重點研究方向。在大模型時代,我們希望能夠推出一系列人工智能數(shù)據(jù)安全相關(guān)的安全系統(tǒng),并讓這些系統(tǒng)在實踐中真正發(fā)揮作用。

浙江大學(xué)剛剛跟聯(lián)通共建了數(shù)字安全聯(lián)合實驗室,其中一項重要的內(nèi)容也與數(shù)據(jù)安全相關(guān)。浙大網(wǎng)安和信通院有一個關(guān)于智能網(wǎng)聯(lián)車數(shù)據(jù)安全的聯(lián)合實驗室,這是因為我們發(fā)現(xiàn)智能網(wǎng)聯(lián)車的數(shù)據(jù)在應(yīng)用過程中也存在非常嚴重的安全問題。此外,最近在國家數(shù)據(jù)局的數(shù)據(jù)大講堂上,我做了有關(guān)隱私計算的報告。隱私計算是數(shù)據(jù)安全從另外一個角度,即從融合、傳輸、分享、產(chǎn)生價值的角度,探索如何保護數(shù)據(jù)的安全性,從而讓數(shù)據(jù)供得出、用得好。

浙大網(wǎng)安將在人工智能安全這三個方向持續(xù)發(fā)力,今天在場的有很多業(yè)界的人士,希望今后能有機會多合作。在未來,我們可以開展以下若干方向的合作:一是共同組織人工智能安全相關(guān)的大型技術(shù)比賽,二是合作構(gòu)建人工智能大模型安全測評榜單的Benchmark,三是聯(lián)合制定行業(yè)和國家標準。這些都是非常重要的幾個領(lǐng)域,產(chǎn)學(xué)研各方應(yīng)聯(lián)手一起推動,才能有效助力國家在人工智能安全治理方面水平的整體提升,同時在世界人工智能技術(shù)發(fā)展中占領(lǐng)先機。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )