AI基礎設施革命: 關于數據隱私保護和價值挖掘的實踐思考

數據隱私的保護貫穿數據流通過程,是一種動態(tài)的數據安全;數據隱私保護與價值挖掘并不矛盾,數據隱私保護的落地長久來看會推動新的數據使用范式誕生,而規(guī)范數據使用可以促進數據流通更順暢,在匯聚更多數據的基礎上迎來價值挖掘的下一個爆發(fā)點,帶動AI的基礎設施革命。

但隱私計算行業(yè)目前仍處于早期階段,數牘科技創(chuàng)始人宋一民將在本文與大家分享他對數據使用的思考,以及平衡隱私保護和價值挖掘常見的技術實踐。

本文的分享提綱如下:1、數據流動的合理性和必然性2、流動鏈條中的數據歸類3、數據隱私和價值挖掘的平衡:給予數據擁有方控制力4、數據擁有者的控制力如何賦予?5、數據控制力管理的技術實踐

數據的流動性

一個數據從生成開始的整個生命周期中,可能會在多個機構或節(jié)點間流轉,在節(jié)點間進行流轉的過程使得數據形成了一個網絡,就像許多企業(yè)內部存在數據流動的data pipeline,在更宏觀的層面也存在類似的data flow。

在客觀現(xiàn)實中,數據流動存在它的合理性和必然性。一方面,對于任何一個個體,他的數據會在不同的場景中產生和被采集。比如使用打車軟件會產生位置移動的信息,住酒店會產生住宿信息,在淘寶買東西會產生購物信息等,很難想象會有一個實體掌握關于這個個體的全部數據;另一方面,挖掘數據的過程也存在專業(yè)性的問題,在不同場景中根據不同需求,挖掘可能很難完全由同一個實體來完成。因此往往為了充分的挖掘數據價值,需要盡可能的將多個數據產生的源頭,經過多個節(jié)點進行匯聚,加工處理和使用。

從產業(yè)的角度來看,我們常形容互聯(lián)網和AI的關系是“連接產生數據,數據產生智能”,在連接和智能決策的過程,其實也是數據流動匯集、價值挖掘的過程。更豐富的數據維度和更好的數據覆蓋對于模型的質量也是至關重要的。數據作為AI的原料,其流動性也是讓AI更好發(fā)揮價值的基石。流動中的數據

數據的流動性具有合理性和必要性,而流動過程中的數據在實踐中通常是被如何被歸類和定位的?

數據在經過不同節(jié)點的過程中,會在不同的上下文環(huán)境中被提及:比如數據的收集,存儲,使用,以及對應的前述行為的轉讓。收集主要對應原始數據的采集或者形成結構化數據的過程,比如將用戶操作 App 的動作形成日志傳回服務器端,或者比如將用戶產生的評論進行匯總。存儲和使用一般都是按字面意思對數據進行保存或者處理。

為了進行數據的聚合或者借助外來力量對數據進行挖掘,可能會涉及將這些數據的存儲或者使用權轉讓給其它方的過程。

另外考慮到這些和個人數據相關的不同上下文,普通用戶在簽數據授權的時候也可以額外關注一下授權協(xié)議是否清晰的定義了這些不同的范疇,比如某 App 本身,對什么數據、進行不超過多長時間的存儲,并且這個存儲權不會轉讓給除某 App 本身的其它實體。

一般收集或采集到數據的一方被稱為第一方數據,第一方數據為了更好地用數據服務使用者,往往會在授權中要求更多的權限。比如在數據使用權里可能會要求通過數據對個人用戶的信息流進行更好的匹配,這里面可能就包含了使用原始數據(如用戶對哪些帖子進行了點贊)所進行的優(yōu)化,也可能包含了將一個用戶的信息用于另一個或一些用戶。

之前提到,完全由一個實體從頭到尾閉環(huán)能完成的事情非常有限,因此這里面會涉及到將用戶的一些信息(可能是原始信息,可能是聚合或者泛化信息)轉讓給其它實體協(xié)助完成的情況。這些從第一方數據所得數據的實體被稱為第二方數據。

受限于數據本身商業(yè)價值或相應法律或PR風險的考慮,在這個數據轉移的過程中第一方會希望盡量控制減少數據本身的泄露。一般通過協(xié)議的角度可能是規(guī)定數據使用的范疇,規(guī)定數據可以被存儲的時間等。通過技術的角度可能是去除個人識別標識,做一些預處理比如泛化(將給定的位置從一個具體的位置變成處于某一個圓的范圍內)等,后面會對這些方法做一個簡單的描述。

除第二方數據以外,還會存在一些根據某些特定目的而將大量原始數據進行匯聚的實體,目的可能是比如進行某些統(tǒng)計分析的研究(比如所有人的存貸比,比如所有人的年齡分布等),也可能是某些特定研究(比如某類藥的安全使用范圍)等,這樣的實體可以被稱為第三方數據。

除了這三方的數據以外,還存在公開數據這個范疇。公開數據的定義很難做到清晰,不過一般認為是任何一方可以通過爬蟲直接從互聯(lián)網獲得的數據(沒有經過數據擁有者的直接授權)。但在現(xiàn)實情況中,判斷公開數據的流通是否有風險往往也和公開數據被獲取的一方對于這種獲取行為如何看待相關。

注意這里所指的公開數據被獲取方并不一定是數據的擁有者,因此也會出現(xiàn)在談及數據的收集,存儲,使用之外的另一個上下文:公開。即第一第二或者第三方實體是否獲得了公開該數據的授權。

123下一頁>

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2020-06-10
AI基礎設施革命: 關于數據隱私保護和價值挖掘的實踐思考
數據隱私的保護貫穿數據流通過程,是一種動態(tài)的數據安全;數據隱私保護與價值挖掘并不矛盾,數據隱私保護的落地長久來看會推動新的數據使用范式誕生,而規(guī)范數據使用可以促進數據流通更順暢,在匯聚更多數據的基礎上

長按掃碼 閱讀全文