生存分析在醫(yī)學、生物學、金融學等領域是都是應用相當廣泛的統(tǒng)計學分支。最初是應用于醫(yī)學研究中, 例如病人確診疾病之后多長時間會死亡,疾病治愈之后多久會復發(fā)等等。然而 生存分析中的生存并不僅僅指生物學上的生存,還可以引申為其他各類在一定時間間隔內(nèi)觀察對象是否發(fā)生某事件的實驗。如今,生存分析已經(jīng)被廣泛的應用到金融、工程、網(wǎng)絡等各個領域,例如用來分析機器零件的損壞情況,預測信息在社交網(wǎng)絡的傳播程度,分析某項服務的用戶流失度等等。
IBM SPSS 計劃在后續(xù)版本中提供對生存分析中較為實用的參數(shù)回歸模型(Parametric Regression Modeling,簡稱 PRM)的支持。
2.數(shù)據(jù)刪失
數(shù)據(jù)刪失是指在對研究對象的觀察過程中,該對象的生存時間沒有被完整的觀測到,因而造成生存數(shù)據(jù)不完整的現(xiàn)象。在實際的觀察實驗中,通常很難準確的觀察到對象狀態(tài)發(fā)生變化的精確時間點。比如患者在治愈之前自行終止治療,或者在整個研究的觀察期間都沒有被治愈。由于觀察手段或者被觀察對象存在種種限制,因此難免會出現(xiàn)觀察數(shù)據(jù)不完整的情況 。
刪失數(shù)據(jù),通常分為左刪失,右刪失和區(qū)間刪失三種情況:
左刪失(Left Censored):是指失效事件的發(fā)生時間只能確定是在某一時間點之前,即失效事件的起始時間沒有觀測到。右刪失(Right Censored):是指失效事件的發(fā)生時間只能確定是在某一時間點之后,即失效事件的結束時間沒有觀測到。區(qū)間刪失(Interval Censored):是指失效事件的發(fā)生時間可以確定在某一時間區(qū)間內(nèi)。非刪失數(shù)據(jù)(Failure Data),就是準確的觀察到了失效事件發(fā)生的事件點的生存數(shù)據(jù)。也就是說失效事件的起始時間和結束時間相等的數(shù)據(jù)。
在生存數(shù)據(jù)中,通常用 F 來表示非刪失數(shù)據(jù),L 表示左刪失,R 表示右刪失,I 表示區(qū)間刪失。由此我們可以看到在圖 1 中失效事件的時間與刪失狀態(tài)之間的關系。
圖 2 刪失數(shù)據(jù)示例
在圖 2 中,我們可以更加直觀的看到不同刪失狀態(tài)的數(shù)據(jù)之間的差別。其中,點表示失效事件發(fā)生的真實時間,直線表示對象被觀察的時間段,虛線表示對象沒有被觀察到的時間段??梢詮膱D 2 中看出,對象 1 的失效事件是發(fā)生在被觀察的事件內(nèi)的,因此屬于非刪失數(shù)據(jù)。對象 2 的失效事件發(fā)生在對象沒有被觀察的事件段中,因此只能確定失效事件發(fā)生在某個時間之后,屬于右刪失數(shù)據(jù)。對象 3 的失效事件能被確定在某個時間點之前,因此屬于左刪失數(shù)據(jù)。對象 4 的失效事件可以確定發(fā)生在一個時間區(qū)間內(nèi),因此數(shù)據(jù)區(qū)間刪失數(shù)據(jù)。
在實際中,有時也會只用一個數(shù)據(jù)列來表示失效事件發(fā)生的事件。比如按照某固定頻率進行的觀察實驗,這樣的實驗觀察到的生存數(shù)據(jù)中,就只會有非刪失數(shù)據(jù)和左刪失數(shù)據(jù),因此只需要用一個數(shù)據(jù)列來保存時間信息。
3.相關特征函數(shù)
在生存分析中,最為重要的就是對生存函數(shù)的估計。生存函數(shù)(Survival Function),是指被觀察對象生存時間長于時間 t 的概率,即觀察對象經(jīng)歷 t 時間之后仍然存活的可能性。因此,生存函數(shù)又稱作(Cumulative Survival Rate)。
除了生存函數(shù)之外,風險函數(shù)也是生存分析研究的一個重要目標。風險函數(shù)(Hazard Function),表示被觀察對象在觀察時刻 t 的死亡概率。這個概率越高,改觀察對象發(fā)生事件的可能就越大。
輸入數(shù)據(jù)要求符合前面所介紹的生存數(shù)據(jù)的基本要求。Data Preparation:是在對于刪失數(shù)據(jù)的時間和狀態(tài)進行檢查,對于狀態(tài)和時間數(shù)據(jù)存在沖突的數(shù)據(jù)進行處理。對沖突數(shù)據(jù)通常有三種處理方法,以狀態(tài)為標準修改數(shù)據(jù),以數(shù)據(jù)為標準修改狀態(tài)以及刪除存在沖突的數(shù)據(jù)。AFT Modeling:可以指定生存時間的分布,也可以用多個分布來建立多個模型。Distribution Selection & Predictor Selection:從不同分布的模型中選取最有模型,并從所有參數(shù)中選擇出來對觀察對象生存有顯著影響的參數(shù)。Output:建模的結果被存儲在 PMML 和 StatXML 中。其中,PMML 中存儲了利用模型來對數(shù)據(jù)做預測的信息,StatXML 中存儲了模型的信息和可視化展示。可以看到在上圖中,”tenure”是表示用戶已經(jīng)使用服務的時間,可以理解為生存分析中的時間(Time)。由于使用時間肯定是從 0 開始,因此可以只用一列數(shù)據(jù)來表示。”churn”用來表示該用戶是否已經(jīng)流失,可以理解為生存分析中的狀態(tài)(Status)。其他的參數(shù)都是表示用戶的特征屬性(Predictors)。
2.建立模型
在建立模型時,我們選擇 Weibull 作為分布假設。根據(jù)建立模型的結果,我們可以得知在數(shù)據(jù)中,”Custcat”和”Marital”兩項數(shù)據(jù)對于用戶流失時間有顯著的影響。因此根據(jù)模型結果,分別正對這兩項數(shù)據(jù)繪制生存曲線圖。
圖 5 “Custcat”生存曲線圖
圖 6 “Marital”生存曲線圖
從圖中我們可以看出,在 Custcat 中屬于”Basic Service”分類的用戶,以及在”Marital”中屬于”Unmarried”分類的用戶,有更大的概率流失。
3.模型預測
圖 7 模型預測結果
在模型預測的結果中我們可以看到,在原始數(shù)據(jù)之后多添加了一列”Predicted Survival”。該數(shù)據(jù)表示根據(jù)之前建立模型,該用戶在當前時間流失的概率。根據(jù)這個預測結果,運營商便可以更有針對性的采取營銷措施來保留客戶,產(chǎn)生商業(yè)價值。
結束語
生存分析是一種非常有效的數(shù)據(jù)分析手段。對于事件何時再目標上發(fā)生這類問題,AFT 模型可以對影響事件發(fā)生的因素進行評估,并進行預測,結合商業(yè)場景可以幫助用戶做出更加合理的商業(yè)決策。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 央國企采購管理升級,合合信息旗下啟信慧眼以科技破局難點
- Apache Struts重大漏洞被黑客利用,遠程代碼執(zhí)行風險加劇
- Crunchbase:2024年AI網(wǎng)絡安全行業(yè)風險投資超過26億美元
- 調(diào)查報告:AI與云重塑IT格局,77%的IT領導者視網(wǎng)絡安全為首要挑戰(zhàn)
- 長江存儲發(fā)布聲明:從無“借殼上市”意愿
- 泛微·數(shù)智大腦Xiaoe.AI正式發(fā)布,千人現(xiàn)場體驗數(shù)智化運營場景
- IDC:2024年第三季度北美IT分銷商收入增長至202億美元
- AI成為雙刃劍!凱捷調(diào)查:97%組織遭遇過GenAI漏洞攻擊
- openEuler開源五年樹立新里程碑,累計裝機量突破1000萬
- 創(chuàng)想 華彩新程!2024柯尼卡美能達媒體溝通會煥新增長之道
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。