以吸煙和精神壓力為例 因果與相關之爭

因果關系與相關關系的異同

因果關系和相關關系在分析過程中應用廣泛。 然而,一部分人在不了解兩種方法的支撐邏輯時往往將兩種關系等同看待。 顯然,人們被困于因果和相關的內(nèi)在聯(lián)系而不能正確的使用它們。 雖然在英文發(fā)音上兩者比較近似,但其適用分析的現(xiàn)象卻大有不同,它們基本的含義也有很大區(qū)別。

為了理清楚因果與相關關系的區(qū)別,我們下面進行一些小小的測驗。分析以下例子中的現(xiàn)象, 然后判斷在兩個事務(X 和 Y)之間是否存在必然因果關系。答案在測試后公布。

例1: X:學生受教育的等級 Y:畢業(yè)后的薪水

前提:學校B學生畢業(yè)后拿到的平均工資更高,接受學校B的教育是導致工作較好的原因嗎?

例 2:X: 吸煙 Y:精神壓力水平

前提: 吸煙的人精神壓力水平較大,那么吸煙會產(chǎn)生壓力嗎?

例3:X:有孩子 Y:成熟水平

前提:有孩子的人更加成熟,有孩子是成熟的原因嗎?

例4:X:海拔 Y: 高度

前提:海拔越高的地方我們感覺越冷。這是不是意味著海拔是導致溫度低的原因?

我希望上面的例子已經(jīng)激發(fā)了你閱讀本文的熱情。 雖然,因果與相關的區(qū)別是一個老掉牙的話題,但是人們依舊不能很好的掌控這些術(shù)語。 本文將試圖通過最簡單的方式解釋因果和相關關系。

在這篇文章中,我將通過了解是否只有相關關系或者存在必然因果關系來區(qū)分因果關系和相關關系的區(qū)別。 考慮到我們往往采用黑箱操作進行分析,所以想讓分析基礎更牢靠的話,了解這些概念是非常必要的。 一些技術(shù)并沒有展現(xiàn)在分析中,但它們的應用卻貫穿整個工業(yè)。

測試答案:

例1:必然因果關系不存在。例如,如果只有天賦比較高的人才會有機會接受B學校的教育,而天賦比較高的人更容易獲得高的薪資水平。因此這些高智商的小伙伴即使不接受B學校的教育也能得到很高的薪水。所以薪水高有其他備選因素。

例2:必然因果關系不存在。我們可以基于逆因果關系來否定該命題。例如,壓力大導致一個人吸煙。

例3:必然因果關系不存在。同樣我們可以采用逆因果關系來否定該命題。例如:成熟的人才準備要孩子。我們也可以將成熟與否歸結(jié)于年齡。年齡越大,越傾向于要孩子,也越來越成熟。

例4:必然因果關系不存在。再用逆因果關系來分析該命題有些不可能??赏ㄟ^相互獨立關系和備擇原因分析來拒絕該命題。

那么什么是建立必然因果關系的關鍵呢?

備擇原因:如果備擇原因(Z)既影響X又影響Y(即Z=>X &Z=>Y同時成立),則拒絕X是導致Y的必然原因。

逆因果關系:如果不是X影響Y,而是Y影響X,則不能推出X是導致Y的必然原因。

相互獨立:一些時候,X與Y之間可能只是單純的相關而沒有任何因果聯(lián)系。

怎樣提取因果關系帶來的影響呢?

在很多領域(例如制藥),研究因果效應非常中重要。在闡述方法前,我們先了解一些定義:

1)隨機試驗數(shù)據(jù):一個試驗定義為給不同的條件分配觀測單元。條件的不同往往是對觀測單元的控制手段不同。通過試驗獲得的數(shù)據(jù)為隨機試驗數(shù)據(jù)。

2)觀測數(shù)據(jù): 很多時候進行隨機試驗是一種奢侈,我們只能獲得已有的數(shù)據(jù)資源。這些數(shù)據(jù)已經(jīng)產(chǎn)生,并且不能設定發(fā)生條件。

提取觀測數(shù)據(jù)中的因果效應是非常難且不確定的。為得到確定的因果關系,我們需要進行隨機試驗。

為什么觀測數(shù)據(jù)不能確定其因果關系呢?

1)觀測數(shù)據(jù)的獲得不是隨機的,我們不能總結(jié)出其中的因果效應

2)舉個例子來說,學生從學校B畢業(yè)會有高薪資水平,這不能表示薪資水平與接受B學校教育的因果關系,因為接受B學校教育是有前提的。

3)如果我們隨機的選擇學生去參加B學校的教育,那么接受B學校教育和薪資水平之間的因果關系才比較牢靠。

為什么不能總是進行隨機試驗呢?

1)有時試驗成本非常昂貴。

2)很多時候,并不是所有的試驗都可以進行。例如你想知道抽煙是否會產(chǎn)生壓力,這樣你需要迫使正常的人吸煙,這往往是不能實現(xiàn)的。

在這些情況下,應如何利用觀測數(shù)據(jù)進行因果效應提取呢?

針對觀測數(shù)據(jù)的因果效應提取有很多研究。大部分研究的目標是消除未知因素的影響。在這里我將羅列一些被廣泛應用的方法。

1、 面板模型:如果未觀測的變量在某一維度上是不變的,那么這個方法將非常簡單。例如,如果未觀測的變量不隨時間發(fā)生變化,我們可以建立面板模型用以剔除其他未觀測因素的影響。B學校=>高薪資的例子中,我們假設所有其他因素不隨時間變化。然后進行如下處理:

(1) 將薪資y對優(yōu)質(zhì)學校(用上標T表示)以及未觀測因素(用上標U表示)做回歸。

(2) 未觀測因素不隨時間變化,簡化模型如下:

(3) 差分剔除未觀測因素的影響:

得到接受優(yōu)質(zhì)學校教育和薪資水平的因果關系系數(shù)。

2、 模擬控制:觀測數(shù)據(jù)最大的問題在于我們沒有獲得控制樣本和非控制樣本。以吸煙的例子來說,一個人不能同時吸煙又不吸煙。

但是,如果我們找到控制樣本的對應的非控制樣本,比較相對應的觀測數(shù)據(jù),將有助于提取因果效應。這是工業(yè)生產(chǎn)中運用的最多的方法。

對應的非控制樣本可以采用最近鄰法則,k-d 樹,或其他方法獲得。讓我們來舉一個例子,設有兩組相同年齡、性別和收入等的人。一組開始吸煙,另一組不吸煙。在其他條件不變的情況下,一段時間內(nèi)兩組人員的壓力水平可以進行比較。

雖然,上述方法在理論上聽起來非常鼓舞人心,但是只改變一個變量而其他變量不變的對應樣本非常難以獲得,這往往導致因果效應的提取錯誤。這將在以后更深入的文章中進行討論。

3、 工具變量法(IV):這也許是我將介紹的最困難的方法。步驟如下:

(1)找到原因結(jié)果對

(2)找到一種因素與原因因素有關但與結(jié)果因素對原因因素回歸得到殘差無關。這種因素被稱為工具變量。

(3)用工具變量估計原因變量

(4)用估計的原因變量回歸結(jié)果變量,得到真實的原因與結(jié)果對之間的因果相應

在觀測數(shù)據(jù)中,采用回歸分析方法得到的原因因素和結(jié)果因素之間系數(shù)關系是有偏的。采用工具變量法,可以得到一個無偏的系數(shù)估計結(jié)果。在吸煙與精神壓力的例子中,我們認為可能存在逆向的結(jié)果。如果我們可以找到和煙草消費量有關和精神壓力無關的變量,也許我們能獲得吸煙與精神壓力之間真實因果關系。例如,我們發(fā)現(xiàn)監(jiān)管稅會提高煙草的價格并降低煙草的消費。那么我們可以將監(jiān)管稅作為工具變量而研究吸煙和精神壓力之間的關系。

4、 回歸的非連續(xù)性設計:這是我(作者非譯者)最喜歡的方法。該方法使得觀察數(shù)據(jù)接近隨機試驗數(shù)據(jù)。

在下圖中,存在控制條件與非控制條件在人口比率上的一個斷點。假設我們想檢驗獎學金對學生成績的影響。注意,獎學金一般提供給預科考試成績在80%以上的學生。這里將會產(chǎn)生一個扭曲。例如聰明的學生將繼續(xù)他們的智慧。因此將非常難剝離出獎學金與后期考試成績的關系。

但是,如果我們只比較成績稍微低于80%(比如79.9%)和成績稍微高于80%(比如80.1%)的學生,將產(chǎn)生不一樣的結(jié)果。假設成績在79.9%與成績在80.1%的學生的差異不明顯。唯一影響他們后期考試成績的只有獎學金這一個因素。這樣的研究就類似于隨機設計實驗中的控制變量法了。

采用該方法將很好地推斷出因果效應。不過,獲得一個有斷點的維度是非常的困難。

翻譯:F.xy

原文作者:TAVISH SRIVASTAVA

原文鏈接:http://www.analyticsvidhya.com/blog/2015/06/establish-causality-events/

End.

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2015-06-23
以吸煙和精神壓力為例 因果與相關之爭
為了理清楚因果與相關關系的區(qū)別,我們下面進行一些小小的測驗。分析以下例子中的現(xiàn)象, 然后判斷在兩個事務(X 和 Y)之間是否存在必然因果關系。答案在測試后公布。

長按掃碼 閱讀全文