AI基礎(chǔ)設(shè)施革命: 關(guān)于數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考

數(shù)據(jù)隱私的保護(hù)貫穿數(shù)據(jù)流通過程,是一種動(dòng)態(tài)的數(shù)據(jù)安全;數(shù)據(jù)隱私保護(hù)與價(jià)值挖掘并不矛盾,數(shù)據(jù)隱私保護(hù)的落地長(zhǎng)久來看會(huì)推動(dòng)新的數(shù)據(jù)使用范式誕生,而規(guī)范數(shù)據(jù)使用可以促進(jìn)數(shù)據(jù)流通更順暢,在匯聚更多數(shù)據(jù)的基礎(chǔ)上迎來價(jià)值挖掘的下一個(gè)爆發(fā)點(diǎn),帶動(dòng)AI的基礎(chǔ)設(shè)施革命。

但隱私計(jì)算行業(yè)目前仍處于早期階段,數(shù)牘科技創(chuàng)始人宋一民將在本文與大家分享他對(duì)數(shù)據(jù)使用的思考,以及平衡隱私保護(hù)和價(jià)值挖掘常見的技術(shù)實(shí)踐。

本文的分享提綱如下:1、數(shù)據(jù)流動(dòng)的合理性和必然性2、流動(dòng)鏈條中的數(shù)據(jù)歸類3、數(shù)據(jù)隱私和價(jià)值挖掘的平衡:給予數(shù)據(jù)擁有方控制力4、數(shù)據(jù)擁有者的控制力如何賦予?5、數(shù)據(jù)控制力管理的技術(shù)實(shí)踐

數(shù)據(jù)的流動(dòng)性

一個(gè)數(shù)據(jù)從生成開始的整個(gè)生命周期中,可能會(huì)在多個(gè)機(jī)構(gòu)或節(jié)點(diǎn)間流轉(zhuǎn),在節(jié)點(diǎn)間進(jìn)行流轉(zhuǎn)的過程使得數(shù)據(jù)形成了一個(gè)網(wǎng)絡(luò),就像許多企業(yè)內(nèi)部存在數(shù)據(jù)流動(dòng)的data pipeline,在更宏觀的層面也存在類似的data flow。

在客觀現(xiàn)實(shí)中,數(shù)據(jù)流動(dòng)存在它的合理性和必然性。一方面,對(duì)于任何一個(gè)個(gè)體,他的數(shù)據(jù)會(huì)在不同的場(chǎng)景中產(chǎn)生和被采集。比如使用打車軟件會(huì)產(chǎn)生位置移動(dòng)的信息,住酒店會(huì)產(chǎn)生住宿信息,在淘寶買東西會(huì)產(chǎn)生購物信息等,很難想象會(huì)有一個(gè)實(shí)體掌握關(guān)于這個(gè)個(gè)體的全部數(shù)據(jù);另一方面,挖掘數(shù)據(jù)的過程也存在專業(yè)性的問題,在不同場(chǎng)景中根據(jù)不同需求,挖掘可能很難完全由同一個(gè)實(shí)體來完成。因此往往為了充分的挖掘數(shù)據(jù)價(jià)值,需要盡可能的將多個(gè)數(shù)據(jù)產(chǎn)生的源頭,經(jīng)過多個(gè)節(jié)點(diǎn)進(jìn)行匯聚,加工處理和使用。

從產(chǎn)業(yè)的角度來看,我們常形容互聯(lián)網(wǎng)和AI的關(guān)系是“連接產(chǎn)生數(shù)據(jù),數(shù)據(jù)產(chǎn)生智能”,在連接和智能決策的過程,其實(shí)也是數(shù)據(jù)流動(dòng)匯集、價(jià)值挖掘的過程。更豐富的數(shù)據(jù)維度和更好的數(shù)據(jù)覆蓋對(duì)于模型的質(zhì)量也是至關(guān)重要的。數(shù)據(jù)作為AI的原料,其流動(dòng)性也是讓AI更好發(fā)揮價(jià)值的基石。流動(dòng)中的數(shù)據(jù)

數(shù)據(jù)的流動(dòng)性具有合理性和必要性,而流動(dòng)過程中的數(shù)據(jù)在實(shí)踐中通常是被如何被歸類和定位的?

數(shù)據(jù)在經(jīng)過不同節(jié)點(diǎn)的過程中,會(huì)在不同的上下文環(huán)境中被提及:比如數(shù)據(jù)的收集,存儲(chǔ),使用,以及對(duì)應(yīng)的前述行為的轉(zhuǎn)讓。收集主要對(duì)應(yīng)原始數(shù)據(jù)的采集或者形成結(jié)構(gòu)化數(shù)據(jù)的過程,比如將用戶操作 App 的動(dòng)作形成日志傳回服務(wù)器端,或者比如將用戶產(chǎn)生的評(píng)論進(jìn)行匯總。存儲(chǔ)和使用一般都是按字面意思對(duì)數(shù)據(jù)進(jìn)行保存或者處理。

為了進(jìn)行數(shù)據(jù)的聚合或者借助外來力量對(duì)數(shù)據(jù)進(jìn)行挖掘,可能會(huì)涉及將這些數(shù)據(jù)的存儲(chǔ)或者使用權(quán)轉(zhuǎn)讓給其它方的過程。

另外考慮到這些和個(gè)人數(shù)據(jù)相關(guān)的不同上下文,普通用戶在簽數(shù)據(jù)授權(quán)的時(shí)候也可以額外關(guān)注一下授權(quán)協(xié)議是否清晰的定義了這些不同的范疇,比如某 App 本身,對(duì)什么數(shù)據(jù)、進(jìn)行不超過多長(zhǎng)時(shí)間的存儲(chǔ),并且這個(gè)存儲(chǔ)權(quán)不會(huì)轉(zhuǎn)讓給除某 App 本身的其它實(shí)體。

一般收集或采集到數(shù)據(jù)的一方被稱為第一方數(shù)據(jù),第一方數(shù)據(jù)為了更好地用數(shù)據(jù)服務(wù)使用者,往往會(huì)在授權(quán)中要求更多的權(quán)限。比如在數(shù)據(jù)使用權(quán)里可能會(huì)要求通過數(shù)據(jù)對(duì)個(gè)人用戶的信息流進(jìn)行更好的匹配,這里面可能就包含了使用原始數(shù)據(jù)(如用戶對(duì)哪些帖子進(jìn)行了點(diǎn)贊)所進(jìn)行的優(yōu)化,也可能包含了將一個(gè)用戶的信息用于另一個(gè)或一些用戶。

之前提到,完全由一個(gè)實(shí)體從頭到尾閉環(huán)能完成的事情非常有限,因此這里面會(huì)涉及到將用戶的一些信息(可能是原始信息,可能是聚合或者泛化信息)轉(zhuǎn)讓給其它實(shí)體協(xié)助完成的情況。這些從第一方數(shù)據(jù)所得數(shù)據(jù)的實(shí)體被稱為第二方數(shù)據(jù)。

受限于數(shù)據(jù)本身商業(yè)價(jià)值或相應(yīng)法律或PR風(fēng)險(xiǎn)的考慮,在這個(gè)數(shù)據(jù)轉(zhuǎn)移的過程中第一方會(huì)希望盡量控制減少數(shù)據(jù)本身的泄露。一般通過協(xié)議的角度可能是規(guī)定數(shù)據(jù)使用的范疇,規(guī)定數(shù)據(jù)可以被存儲(chǔ)的時(shí)間等。通過技術(shù)的角度可能是去除個(gè)人識(shí)別標(biāo)識(shí),做一些預(yù)處理比如泛化(將給定的位置從一個(gè)具體的位置變成處于某一個(gè)圓的范圍內(nèi))等,后面會(huì)對(duì)這些方法做一個(gè)簡(jiǎn)單的描述。

除第二方數(shù)據(jù)以外,還會(huì)存在一些根據(jù)某些特定目的而將大量原始數(shù)據(jù)進(jìn)行匯聚的實(shí)體,目的可能是比如進(jìn)行某些統(tǒng)計(jì)分析的研究(比如所有人的存貸比,比如所有人的年齡分布等),也可能是某些特定研究(比如某類藥的安全使用范圍)等,這樣的實(shí)體可以被稱為第三方數(shù)據(jù)。

除了這三方的數(shù)據(jù)以外,還存在公開數(shù)據(jù)這個(gè)范疇。公開數(shù)據(jù)的定義很難做到清晰,不過一般認(rèn)為是任何一方可以通過爬蟲直接從互聯(lián)網(wǎng)獲得的數(shù)據(jù)(沒有經(jīng)過數(shù)據(jù)擁有者的直接授權(quán))。但在現(xiàn)實(shí)情況中,判斷公開數(shù)據(jù)的流通是否有風(fēng)險(xiǎn)往往也和公開數(shù)據(jù)被獲取的一方對(duì)于這種獲取行為如何看待相關(guān)。

注意這里所指的公開數(shù)據(jù)被獲取方并不一定是數(shù)據(jù)的擁有者,因此也會(huì)出現(xiàn)在談及數(shù)據(jù)的收集,存儲(chǔ),使用之外的另一個(gè)上下文:公開。即第一第二或者第三方實(shí)體是否獲得了公開該數(shù)據(jù)的授權(quán)。

123下一頁>

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2020-06-10
AI基礎(chǔ)設(shè)施革命: 關(guān)于數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考
數(shù)據(jù)隱私的保護(hù)貫穿數(shù)據(jù)流通過程,是一種動(dòng)態(tài)的數(shù)據(jù)安全;數(shù)據(jù)隱私保護(hù)與價(jià)值挖掘并不矛盾,數(shù)據(jù)隱私保護(hù)的落地長(zhǎng)久來看會(huì)推動(dòng)新的數(shù)據(jù)使用范式誕生,而規(guī)范數(shù)據(jù)使用可以促進(jìn)數(shù)據(jù)流通更順暢,在匯聚更多數(shù)據(jù)的基礎(chǔ)上

長(zhǎng)按掃碼 閱讀全文