信通院云大所:數(shù)據(jù)治理成為大模型的勝負手

5月16日消息(水易)近日,在由中國通信標準化協(xié)會主辦,中關(guān)村科學城管委會支持、中國通信標準化協(xié)會大數(shù)據(jù)技術(shù)標準推進委員會(CCSA TC601)承辦的“2024DataOps發(fā)展大會”上,中國信息通信研究院云計算與大數(shù)據(jù)研究所大數(shù)據(jù)與智能化部副主任王妙瓊對《面向人工智能的數(shù)據(jù)治理的實踐指南(1.0)》進行深度解讀。

王妙瓊表示,通用人工智能的快速發(fā)展為數(shù)據(jù)治理帶來新的挑戰(zhàn),包括更高的數(shù)據(jù)集質(zhì)量要求,更復雜的安全與隱私風險,更顯性的偏見與歧視。

具體而言,面向更復雜的數(shù)據(jù)類型、更多維的評價維度、更冗長的處理環(huán)節(jié),需要進一步構(gòu)建面向人工智能的數(shù)據(jù)質(zhì)量評價體系和質(zhì)量提升工藝;模型訓練和應用過程中存在諸多安全風險,除去傳統(tǒng)關(guān)注的數(shù)據(jù)丟失、隱私泄露等風險,還需要額外關(guān)注數(shù)據(jù)投毒、逆向還原等更關(guān)注內(nèi)容治理的新型風險;訓練數(shù)據(jù)集中不易察覺的偏見和歧視信息,會直接影響到訓練結(jié)果的輸出,隨著人工智能應用逐步走向產(chǎn)業(yè)化,潛在的道德倫理問題會引起嚴重的后果。

針對這些挑戰(zhàn),面向人工智能的數(shù)據(jù)治理(DG4AI,Data Governance for Artificial Intelligence)能夠在人工智能應用中管理和控制數(shù)據(jù)的過程與實踐,以確保數(shù)據(jù)的質(zhì)量、可靠性、安全性與合規(guī)性,使得數(shù)據(jù)能夠被準確地用于訓練和部署AI模型,同時保護數(shù)據(jù)的隱私和安全。從而保障人工智能高質(zhì)量應用。

王妙瓊表示介紹,《面向人工智能的數(shù)據(jù)治理的實踐指南(1.0)》創(chuàng)新性地提出了面向人工智能全生命周期的治理實踐方法,為人工智能場景中數(shù)據(jù)治理路徑指明了方向,使數(shù)據(jù)治理的價值能夠在人工智能時代背景下最大化激活。

具體包括:確定應用目標與效果、明確應用場景、澄清數(shù)據(jù)需求、評估數(shù)據(jù)獲取難度;制定數(shù)據(jù)標注流程、明確數(shù)據(jù)質(zhì)量標準、考慮合規(guī)和隱私要求、管理規(guī)范持續(xù)更新;數(shù)據(jù)清洗和標注、特征工程和數(shù)據(jù)增強、溝通與驗收;數(shù)據(jù)集持續(xù)維護、洞察數(shù)據(jù)集構(gòu)成與分布、版本管理與權(quán)限管控;構(gòu)建監(jiān)控指標體系、持續(xù)優(yōu)化數(shù)據(jù)集流程。

王妙瓊表示,未來,人工智能數(shù)據(jù)產(chǎn)業(yè)分工更加明確,供給人工智能所需的數(shù)據(jù)集產(chǎn)業(yè),在采集、加工、交易、消費等環(huán)節(jié)將更加清晰和成熟,通過市場化的調(diào)節(jié)機制合理分配產(chǎn)業(yè)的人才、資金與資源,更高效地推進人工智能應用發(fā)展。

同時,數(shù)據(jù)治理成為大模型的勝負手,隨著研發(fā)成本的不斷攀升和市場集中度的提高(馬太效應),只有少數(shù)企業(yè)可能在這場競爭中勝出。盡管算力和算法方面的技術(shù)優(yōu)勢并不明顯,但通過有效的數(shù)據(jù)治理,企業(yè)仍有可能獲得競爭優(yōu)勢、

此外,隨著DG4AI技術(shù)、實踐和理論的成熟,DG4AI將更加標準化與流程化,進而服務化,高效、高質(zhì)量、安全可控地提供標準的數(shù)據(jù)產(chǎn)品(數(shù)據(jù)集、語料庫)。

王妙瓊指出,面向人工智能的數(shù)據(jù)治理在理論與實踐還處在探索期,目前中國信通院已牽頭在中國通信標準化協(xié)會、國際電信聯(lián)盟(ITU)等立項相關(guān)行業(yè)標準、國際標準,后續(xù)還將在技術(shù)工具、企業(yè)能力建設以及實踐方法論等方面持續(xù)開展研究、合作與生態(tài)建設工作。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-05-16
信通院云大所:數(shù)據(jù)治理成為大模型的勝負手
信通院云大所:數(shù)據(jù)治理成為大模型的勝負手,C114訊 5月16日消息(水易)近日,在由中國通信標準化協(xié)會主辦,中關(guān)村科學城管委會支持、中國通信

長按掃碼 閱讀全文