如何抵御“羊毛黨”攻擊?人工智能反欺詐之特征工程

文|猛犸反欺詐 周輝

3月27日訊,近年來,隨著移動互聯(lián)網(wǎng)的興起,各種傳統(tǒng)的業(yè)務逐漸轉(zhuǎn)至線上,互聯(lián)網(wǎng)金融,電子商務迅速發(fā)展,商家針對營銷及交易環(huán)節(jié)的推廣活動經(jīng)常以返利的形式進行。由于有利可圖,此類線上推廣迅速滋生了針對返利的系統(tǒng)性的優(yōu)惠套利欺詐行為,俗稱薅羊毛。由于移動設(shè)備的天然隱蔽性和欺詐行為的多變性,傳統(tǒng)的防范手段,比如規(guī)則系統(tǒng)等就顯得有些笨拙和捉襟見肘了,使得薅羊毛看起來仿佛防不勝防。但是正所謂魔高一尺,道高一丈。在實踐中,我們發(fā)現(xiàn),一個基于統(tǒng)計和機器學習的多層動態(tài)風險評分體系和決策系統(tǒng)能有效地抵御“羊毛黨”的攻擊。那如何打造這樣一個系統(tǒng)呢?

首先,我們來了解下此系統(tǒng)的核心部分之一:特征工程。

特征工程,又稱特征學,是學習一個特征的技術(shù)的集合,將原始數(shù)據(jù)轉(zhuǎn)換成為能夠被機器學習來有效開發(fā)的一種形式。通俗地講,特征工程對原始數(shù)據(jù)進行加工,將其轉(zhuǎn)換為精確的,可量化的數(shù)據(jù)。

著名法國小說《小王子》中有這樣的描述:“如果你對大人們說‘我看到一幢用玫瑰色的磚蓋成的漂亮的房子,它的窗戶上有天竺葵,屋頂上還有鴿子……‘,他們想象不出來房子有多好,必須對他們說‘我看見了一幢價值十萬法郎的房子’他們才能理解房子有多好。”文中,從房屋模糊的文學性描述到“十萬法郎”就是一個特征學習的例子。

特征工程轉(zhuǎn)換后的數(shù)據(jù)能被更好的理解和運算,方便我們從貌似渣亂無章的原始數(shù)據(jù)中找出那些可疑的異常數(shù)據(jù)。它是機器學習中很重要的一步,也許是最重要的一步。在機器學習領(lǐng)域里有一個不成文的共識,數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。

在反欺詐的實踐中,我們發(fā)現(xiàn)從網(wǎng)絡(luò)及設(shè)備終端、用戶行為信息、業(yè)務事件頻次,欺詐網(wǎng)絡(luò)圖譜這四大維度提取特征,并在此基礎(chǔ)上對有組織的薅羊毛行為層層篩查,對風險加以甄別,就能讓羊毛黨無所遁形。

設(shè)備終端與網(wǎng)絡(luò)

設(shè)備終端與網(wǎng)絡(luò)層面的特征是防范羊毛黨的第一道防線,為了規(guī)避篩查,或者方便適用自動化工具,欺詐者首先選擇在終端做手腳。他們或者適用PC或服務器以腳本或模擬器冒充終端設(shè)備,或者在終端設(shè)備上,Root,越獄,打開調(diào)試模式,安裝一鍵新機軟件,按鍵精靈等等,也有的正常用戶不幸安裝了木馬程序,而淪為任人擺布的肉雞。除了終端,網(wǎng)絡(luò)也是欺詐者最常擺弄的,他們經(jīng)常適用代理,VPN,或和一些機房的網(wǎng)絡(luò)管理人員合作,分散IP,進而冒充來自不同的地域。

為了對抗上面所提到的種種作弊行為,在實踐中,我們通常按下面的方法來構(gòu)造一個設(shè)備指紋系統(tǒng):1)根據(jù)收集到的歷史數(shù)據(jù),形成操作系統(tǒng)簽名數(shù)據(jù)庫。這個數(shù)據(jù)庫被用于判斷一個設(shè)備的操作系統(tǒng)簽名是否和聲明的操作系統(tǒng)及廠商,型號等吻合,進而判斷設(shè)備是否是腳本程序或模擬器偽裝,是否使用了代理或VPN,是否篡改了UA等設(shè)備信息等等;2)對設(shè)備的IP來源進行分析,看是否有可疑行為的歷史,是否來自機房,從而判斷其自動化或作弊的可能性;3)根據(jù)設(shè)備相關(guān)的三十多個特征將設(shè)備進行關(guān)聯(lián),賦予其唯一的身份識別符,此ID是上層特征,即用戶行為、頻次及欺詐網(wǎng)絡(luò)圖譜的基礎(chǔ)。

用戶行為信息

在堅實的設(shè)備指紋的基礎(chǔ)上,需要在會話和賬號兩層采集和提取用戶行為信息。在會話的層面上,借助基于概率的聚類模型和模式挖掘算法(sequentialpatternmining),將用戶的行為模式,比如事件發(fā)生的次序以及事件發(fā)生的間隔時間,歸為幾類。并在此基礎(chǔ)上識別出異常行為模式。這些標示特征為區(qū)分正常用戶和欺詐者或自動化工具提供了重要信息;更進一步,在賬號的層面上:首先以賬號為索引,將會話層面上提取到的行為信息特征按時間串聯(lián)起來,得到賬戶層面的異常行為標示特征。其次根據(jù)賬號相關(guān)聯(lián)的歷史行為數(shù)據(jù),提取出用戶的偏好屬性,比如是否為僵尸賬號,相鄰登錄的平均地理距離等。最后,我們將這些信息綜合起來,形成特有的用于反欺詐的用戶畫像。

當一個賬號再次出現(xiàn)在業(yè)務中時,用戶畫像中的特征就可以幫助我們評估對應業(yè)務事件的風險。在實踐中,我們還發(fā)現(xiàn),由“羊毛黨”控制的賬號,通常具有某些相似性,比如所用手機號碼都來自某個號段,用戶名都由三個小寫字母,五個大寫字母和四個數(shù)字組成。據(jù)此,我們就可以定義賬號之間的相似度。這樣即使一個賬號首次出現(xiàn),我們也可以使用用戶畫像,對其風險做一個大致的評估。

用戶畫像除了本身能直接應用于欺詐行為的判斷外。還可作為網(wǎng)絡(luò)圖譜模型的輸入,為欺詐網(wǎng)絡(luò)的發(fā)現(xiàn)提供線索和依據(jù)。

業(yè)務事件頻次特征

典型的薅羊毛行為的特征表現(xiàn)為短時期,小欺詐額,高頻次。從業(yè)務角度上來看:由于薅羊毛的欺詐行為有別于正常用戶的行為模式,會引起業(yè)務事件在某些顆粒度的時間+空間上分布異常。從反欺詐的防范要求角度上來看:需要對異常事件能快速響應,這就要求對客戶行為做實時或者近實時的統(tǒng)計、計算。并且綜合時間序列分析,個體差異分析以及當前趨勢分析這三方面的評估,實時并動態(tài)地對異常頻次數(shù)做標記。

以某互聯(lián)網(wǎng)公司一個實際的交易薅羊毛案例為例

被監(jiān)控的交易事件,隨著時間,在整體上會形成一個有規(guī)律可循的時間分布曲線。一個時間曲線,比如上圖的最上面一個小圖,其實是由三種效應疊加起來的:

1.數(shù)據(jù)整體隨時間的趨勢效應,上圖的第二小圖;

2. 數(shù)據(jù)隨時間的周期效應,圖中的第三小圖。這個其實包含兩個方面,一個是同一天各個小時間的個體差異,一個是某一小時對歷史上同一小時的慣性關(guān)系。

3.統(tǒng)計噪音效應。(這部分數(shù)據(jù)通常被用來做異常分析)

當數(shù)據(jù)累積到一定量的時候,比如整體分布曲線,能很好的被ARIMA模型(也就是時間序列模型)模擬和預測。ARIMA是統(tǒng)計學中一類模型的統(tǒng)稱;ARIMA能自動處理時間維度上的周期變化,動態(tài)變化,噪音污染等問題。并對每個小時動態(tài)生成一系列異常檢驗規(guī)則??梢岳斫鉃槿缦碌囊幌盗幸?guī)則:某一天10點鐘,交易200次以下為正常,200-250為輕度異常,250-350為重度異常等等。

上圖是實際的模擬效果,綠色是原始值,紅色虛線是預測值,黑線是誤差,此案例預測的效果較好。

上面這些結(jié)果都是針對整體分布曲線而言的。但是在反優(yōu)惠套利欺詐的場景里面,我們常常希望在某細顆粒度上制定檢測規(guī)則:比如某個地域/IP網(wǎng)段每小時交易超過多少為異常。也就是說在時間維度的基礎(chǔ)上加入空間維度。這是因為通常來說,欺詐行為會引起在某個空間細顆粒度上,時間分布曲線異常;但不會引起整體層面上的異常,也就是說異常數(shù)據(jù)會被正常數(shù)據(jù)淹沒掉;而且,整體層面上的模型是無法區(qū)分細顆粒度上的差別。換句話說,它只能籠統(tǒng)地告訴我們,數(shù)據(jù)在某個時段出現(xiàn)了異常,但無法告訴我們在這個時段,按空間維度分比如城市,哪些是異常的,哪些依然是正常的。

在時間維度上加入空間維度,面臨兩方面的困難:一方面,細顆粒度的維度過高,以網(wǎng)段舉例,數(shù)據(jù)中出現(xiàn)的網(wǎng)段有近十萬個,分別建模成本過高;另一方面,細顆粒上的數(shù)據(jù)通常累積量不夠,難以滿足時間序列模型所需的條件。通過反復建模實踐,我們發(fā)現(xiàn)基于貝葉斯框架的生成式模型能較完美地克服上述困難,完成建模目標。由于這類模型綜合考慮了事件的時間和空間分布,我們不妨叫它“時空動能模型”。

上圖中的兩張圖是兩個不同網(wǎng)段的交易數(shù)據(jù)分布圖。每副圖中藍色曲線是網(wǎng)段交易曲線,對應著左邊的坐標系。紅色曲線是整體的分布曲線,對應著右邊的坐標系。藍色曲線上的紅色點是模型得到的異常點,而紅色曲線上的藍點是前述紅點所對應時間上的整體分布曲線上的點。

左圖上下對比,可以看到,時空動能模型能在整體不異常的情況下,在細顆粒度上面找到異常點。

左右對比,這兩張圖顯現(xiàn)的分別是不常用網(wǎng)段和常用網(wǎng)段,它們的分布曲線完全不相似。是無法用同一模型模擬的。但時空動能模型自動的為兩個網(wǎng)段分別建模,自動適應這種動態(tài)變化。

上面的例子證明,綜合了統(tǒng)計和機器學習技術(shù)的模型能在反欺詐異常檢測中發(fā)揮巨大的作用。

欺詐網(wǎng)絡(luò)圖譜

羊毛黨經(jīng)常通過網(wǎng)絡(luò)發(fā)起組織,在一些單點特征上,同正常用戶一樣呈現(xiàn)出分散的特點,使得單點特征防御難以奏效。但如果將用戶行為用網(wǎng)絡(luò)的形式建模展示,會發(fā)現(xiàn)在一些特殊的圖形特征上,欺詐行為明顯異于正常行為。實踐中,我們借助于圖學習(GraphLearning)的一些模型,發(fā)現(xiàn)網(wǎng)絡(luò)圖譜模型對于羊毛黨的發(fā)現(xiàn)特別有效。當然欺詐網(wǎng)絡(luò)發(fā)現(xiàn)依賴于設(shè)備指紋以及建立在其基礎(chǔ)上的同人模型。

在上面的網(wǎng)絡(luò)圖譜里面,紅色點表示不同設(shè)備;綠色點表示不同賬號;藍色點表示不同APP。紅色點和綠色點之間的虛線表示:該設(shè)備注冊了這個賬號;藍色點與綠色點之間的虛線表示該賬號領(lǐng)取了這個APP的某些獎勵。

上面的左圖是正常用戶的行為網(wǎng)絡(luò)圖譜:不同設(shè)備的行為是分散的,不一致的。而右邊是“公會式羊毛黨”的行為網(wǎng)絡(luò)圖譜。在網(wǎng)絡(luò)圖譜上,羊毛黨的設(shè)備行為會呈現(xiàn)出高度的一致性和集中性。

以上,我們對網(wǎng)絡(luò)及設(shè)備終端、用戶行為信息、業(yè)務事件頻次,欺詐網(wǎng)絡(luò)圖譜這四大維度的特征工程做了一個簡單的介紹。在反欺詐實踐中,這些提取出來的特征,結(jié)合多層動態(tài)模型,能有效地識別出高風險薅羊毛行為,幫助企業(yè)打擊“羊毛黨”。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-03-27
如何抵御“羊毛黨”攻擊?人工智能反欺詐之特征工程
近年來,隨著移動互聯(lián)網(wǎng)的興起,各種傳統(tǒng)的業(yè)務逐漸轉(zhuǎn)至線上,互聯(lián)網(wǎng)金融,電子商務迅速發(fā)展,商家針對營銷及交易環(huán)節(jié)的推廣活動經(jīng)常以返利的形式進行。由于有利可圖,此類線上推廣迅速滋生了針對返利的系統(tǒng)性的優(yōu)惠套利欺詐行為,俗稱薅羊毛。

長按掃碼 閱讀全文