從金融科技平臺人人貸看CNN 在金融科技領(lǐng)域的運(yùn)用

據(jù)媒體報道,近期,F(xiàn)acebook、微軟等巨頭已開始著手打擊 deepfake 濫用,斥資 1000 多萬美元舉辦 deepfake 檢測挑戰(zhàn)賽。谷歌也宣布了開源大型 deepfake 視頻數(shù)據(jù)集,以支持社區(qū)對 deepfake 檢測的研究。

今年6 月,一段利用DeepFake機(jī)器學(xué)習(xí)算法生成的Facebook 創(chuàng)始人馬克·扎克伯格的講話視頻引起軒然大波。

人們驚訝的不是視頻內(nèi)容本身,而是DeepFake 機(jī)器學(xué)習(xí)算法的進(jìn)步之迅速。由AI生成的視頻仿真程度越來越高,導(dǎo)致辨別這些內(nèi)容真?zhèn)卧絹碓嚼щy。如果這類技術(shù)被大規(guī)模濫用,很可能會帶來不可估量的負(fù)面影響。

從技術(shù)角度看,引發(fā)關(guān)注的DeepFake 機(jī)器學(xué)習(xí)算法由卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeural Network, CNN)催生而來。后者是深度學(xué)習(xí)(Deep Learning)技術(shù)中極具代表性的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。目前,CNN 已經(jīng)在圖像處理領(lǐng)域取得了很大成功。全球最大圖像識別數(shù)據(jù)庫ImageNet 數(shù)據(jù)集上,許多成功的模型都是基于CNN。

從金融科技平臺人人貸看CNN 在金融科技領(lǐng)域的運(yùn)用

據(jù)華爾街日報報道,今年3 月英國一家能源公司CEO 被犯罪分子通過電話騙取了22 萬歐元。負(fù)責(zé)這起詐騙案理賠的保險公司調(diào)查后認(rèn)為,犯罪分子利用了DeepFake 類軟件工具,通過模仿這位CEO 的德國老板的特殊口音獲取其信任,并最終得逞。

可見,DeepFake 并非只是換臉,其含義已經(jīng)泛化為利用AI 生成虛假音頻、視頻、圖像等內(nèi)容的行為。DeepFake 也并不只代表某個特定算法模型或軟件工具,而是一類算法的應(yīng)用集合。

在對數(shù)據(jù)和風(fēng)險高度敏感的金融行業(yè),DeepFake 以假亂真的效果很可能會影響到銀行、金融科技公司等機(jī)構(gòu)對使用者開展KYC(了解你的客戶)比如遠(yuǎn)程客戶認(rèn)證等關(guān)鍵環(huán)節(jié)。

金融業(yè)是對數(shù)據(jù)高度敏感的行業(yè)。在以CNN 為代表的深度學(xué)習(xí)大量運(yùn)用之前,金融行業(yè)對數(shù)據(jù)的處理很大程度上是根據(jù)已知經(jīng)驗(yàn)和規(guī)律做出判斷。

比如,卡車司機(jī)群體的健康或意外風(fēng)險較高,保險公司在對這部分投??蛻魷y算建模時一般會提高保費(fèi)價格。再比如,公務(wù)員群體的工作較為穩(wěn)定,還款意愿和能力相對更容易判定。這兩個例子中共同的數(shù)據(jù)變量是職業(yè),不同職業(yè)對金融業(yè)務(wù)風(fēng)險會產(chǎn)生顯著影響。

但已知經(jīng)驗(yàn)和規(guī)律畢竟有限,以此為基礎(chǔ)的一些強(qiáng)假設(shè)大多數(shù)情況下自變量(比如:年齡、職業(yè))和因變量(風(fēng)險)滿足線性關(guān)系。而在實(shí)際的金融業(yè)務(wù)開展過程中,采集來的數(shù)據(jù)之間常常存在非線性關(guān)聯(lián)。

在這種情況下,數(shù)據(jù)分析人員可以通過變量衍生和變換技術(shù)來彌補(bǔ)線性模型表達(dá)能力的不足。例如,用戶在央行征信中心的征信報告中會留下銀行等金融機(jī)構(gòu)的查詢記錄,單條查詢記錄可能跟用戶的資質(zhì)沒有太大關(guān)聯(lián),但是,如果我們統(tǒng)計用戶在一定期限內(nèi)的被查詢次數(shù),這就是用戶對于貸款饑渴程度的一個很好的度量,也跟用戶資質(zhì)有較大的關(guān)系。

在這個例子中,“用戶的征信報告被貸款機(jī)構(gòu)查詢的記錄”到“用戶一定期限內(nèi)的被查詢次數(shù)”就是一次非線性的變量衍生過程。在變量衍生后,數(shù)據(jù)分析人員以標(biāo)準(zhǔn)的變量評估方法為基礎(chǔ),結(jié)合KYC 的經(jīng)驗(yàn)判斷衍生和變換后的變量是否是一個“好”的變量。數(shù)據(jù)分析人員的經(jīng)驗(yàn)、能力甚至靈感決定了能否找到良好的非線性變換,以對用戶的資質(zhì)做更準(zhǔn)確的評價。

但受限于數(shù)據(jù)分析人員的精力和能力限制,要找到更理想的衍生變量進(jìn)而發(fā)現(xiàn)其中的邏輯關(guān)系并不容易。利用CNN 構(gòu)造并訓(xùn)練模型,通過調(diào)整參數(shù)將模型性能調(diào)整到理想狀態(tài),可以解決這個問題。

以金融科技企業(yè)人人貸的業(yè)務(wù)流程為例,人人貸將采集到的用戶數(shù)據(jù)可視化為一張“圖片”,圖片中的每一個像素定義為每一個變量的取值。通過批量分析用戶“圖片”,可以發(fā)現(xiàn)高風(fēng)險用戶在圖片的某些區(qū)域上有持續(xù)的共同或相似之處。與此同時,也會發(fā)現(xiàn)一些圖片區(qū)域的取值在高風(fēng)險和低風(fēng)險的用戶之間并無差異,即在風(fēng)險識別的目標(biāo)下無效的變量區(qū)域。

得益于數(shù)據(jù)降維,CNN 模型能夠顯著減少需要處理的數(shù)據(jù)量級,將算力要求控制在可接受范圍內(nèi)。更重要的是,基于CNN 的風(fēng)險識別模型可以晝夜不停地工作,所處理的數(shù)據(jù)量級和復(fù)雜程度也遠(yuǎn)遠(yuǎn)超過數(shù)據(jù)分析人員采用的傳統(tǒng)統(tǒng)計分析方法或傳統(tǒng)機(jī)器學(xué)習(xí)。

經(jīng)過多年業(yè)務(wù)實(shí)踐,人人貸認(rèn)為在信貸風(fēng)險管理領(lǐng)域,存在成功應(yīng)用CNN 的前提條件。值得注意的是,人人貸并不是運(yùn)用CNN 來完成信貸風(fēng)險決策,而是將CNN 用于傳統(tǒng)信用評估流程中的“變量衍生”環(huán)節(jié),也就是把CNN 網(wǎng)絡(luò)的輸出作為衍生變量的重要備選。

在風(fēng)險識別之外,人人貸作為國內(nèi)領(lǐng)先的金融科技企業(yè),較早采用了第三方服務(wù)商的人臉識別解決方案,能夠準(zhǔn)確、高效地完成客戶身份驗(yàn)證。其中的人臉識別算法也大量使用了CNN 相關(guān)技術(shù)。就目前而言,第三方人臉識別解決方案提供商的算法已經(jīng)相當(dāng)成熟,可以有效防御2D 照片、3D 人臉模型攻擊,反身份欺騙成功率可達(dá)99.5%。

基于CNN相關(guān)技術(shù)的應(yīng)用,人人貸得以將金融科技有效滲入業(yè)務(wù)全流程,極大的提高了風(fēng)控流程的效率,進(jìn)而將服務(wù)全流程智能化、系統(tǒng)化。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-11-05
從金融科技平臺人人貸看CNN 在金融科技領(lǐng)域的運(yùn)用
據(jù)媒體報道,近期,F(xiàn)acebook、微軟等巨頭已開始著手打擊 deepfake 濫用,斥資 1000 多萬美元舉辦 deepfake 檢測挑戰(zhàn)賽。

長按掃碼 閱讀全文