为什么相关性不等于因果性?终于有人讲明白了
導(dǎo)讀:本文我們來(lái)討論有關(guān)相關(guān)性和因果性的話題。
作者:徐晟
來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)
相關(guān)性體現(xiàn)了兩個(gè)事物之間相互關(guān)聯(lián)的程度。比如房屋面積越大,房?jī)r(jià)就越高,改變其中一個(gè)變量(房屋面積)會(huì)引發(fā)另一個(gè)變量(房屋的價(jià)格)朝著同樣的方向變化,這兩個(gè)變量就存在正相關(guān)性。反之,如果一個(gè)變量的改變會(huì)讓另一個(gè)變量朝著相反方向變化,就表明它們有負(fù)相關(guān)性,比如海拔高度和大氣壓的關(guān)系。
不過(guò),數(shù)據(jù)之間通常只能呈現(xiàn)關(guān)聯(lián)性,而很難直接體現(xiàn)因果性。人工智能就是一個(gè)典型代表,計(jì)算機(jī)只能發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系,它不負(fù)責(zé)解釋原因。
再來(lái)看看因果性。人其實(shí)特別喜歡歸因,一旦看到某種現(xiàn)象,就總喜歡把這個(gè)現(xiàn)象歸到某些原因上。這點(diǎn)也體現(xiàn)在人類語(yǔ)言中。比方說(shuō),家長(zhǎng)常常告訴孩子:“你不好好學(xué)習(xí),就會(huì)掛科。”這個(gè)表述容易讓人誤以為“好好學(xué)習(xí)”和“掛科”具有因果關(guān)系。
可實(shí)際上,家長(zhǎng)只是想表達(dá),前者增加了后者發(fā)生的可能性,不是必然會(huì)讓后者發(fā)生。日常生活中人們已經(jīng)習(xí)慣使用大量口語(yǔ)化的因果句式,可它們并不一定都有因果關(guān)系。
處理統(tǒng)計(jì)學(xué)問(wèn)題時(shí),我們必須遵守一個(gè)基本原則:數(shù)據(jù)的相關(guān)性并不代表因果性。兩個(gè)變量存在相關(guān)關(guān)系,并不代表其中一個(gè)變量的改變是由另一個(gè)變量變化引起的。
舉例來(lái)說(shuō),20世紀(jì)50年代,人們觀察大氣層二氧化碳的含量和肥胖癥人口的數(shù)量變化,發(fā)現(xiàn)兩個(gè)數(shù)據(jù)都出現(xiàn)了明顯的增長(zhǎng)。似乎二氧化碳含量的增加會(huì)導(dǎo)致人類的肥胖。
但實(shí)際原因是,那段時(shí)間汽車業(yè)開(kāi)始發(fā)展,汽車尾氣排放增加,導(dǎo)致了大氣中二氧化碳濃度上升;同時(shí)越來(lái)越多的人使用汽車作為代步工具,人們走路活動(dòng)的時(shí)間變少,自然也就越來(lái)越胖。
類似的案例還有很多。有人說(shuō)喝啤酒會(huì)導(dǎo)致肚子變大,但我們不能證明喝酒是導(dǎo)致肥胖的原因,更有可能的是愛(ài)喝酒的人往往飲食不規(guī)律、不愛(ài)運(yùn)動(dòng),導(dǎo)致肚子變大;公雞打鳴與日出高度相關(guān),但它顯然不是日出的原因;醫(yī)院的死亡率比其他地方都高,并不表示醫(yī)院是一個(gè)危險(xiǎn)的地方。
有時(shí),要從數(shù)據(jù)中挖掘和推斷出正確的結(jié)論很困難。其中的陷阱就在于,數(shù)據(jù)的相關(guān)性和因果性經(jīng)常容易混淆。
假設(shè)兩個(gè)變量A和B具有相關(guān)性,其中的原因有很多種,并非只有A→B或者B→A這樣的因果關(guān)系。很有可能是,A和B都是由另一個(gè)變量C造成的,即C→A且C→B,此時(shí)A和B會(huì)表現(xiàn)出明顯的相關(guān)性,但我們并不能說(shuō)A和B存在因果關(guān)系。
比如,有統(tǒng)計(jì)數(shù)據(jù)表明,游泳死亡人數(shù)越高,冰糕賣得越多,游泳死亡人數(shù)和冰糕售出量之間存在強(qiáng)相關(guān)性,但我們并不能由此得出吃冰糕會(huì)增加游泳死亡風(fēng)險(xiǎn)的結(jié)論。它們都是因?yàn)榱硪粋€(gè)原因?qū)е碌摹獨(dú)鉁厣吡?。吃不吃冰糕與游泳死亡風(fēng)險(xiǎn)沒(méi)有任何因果關(guān)系。
想要得出因果性,必須從理論上證明兩個(gè)變量之間確實(shí)有因果關(guān)系,并且排除所有其他隱含變量同時(shí)導(dǎo)致這兩個(gè)變量的可能性。只通過(guò)幾組數(shù)據(jù),不能輕率做出因果關(guān)系的結(jié)論。很多數(shù)據(jù)呈現(xiàn)出來(lái)的是表象,無(wú)法確認(rèn)它們是否存在其他隱藏的內(nèi)部變量。
01 吸煙會(huì)致癌嗎
統(tǒng)計(jì)學(xué)在發(fā)展初期,曾經(jīng)爭(zhēng)論過(guò)一個(gè)著名的醫(yī)學(xué)問(wèn)題:吸煙會(huì)導(dǎo)致肺癌嗎?這個(gè)問(wèn)題成為20世紀(jì)統(tǒng)計(jì)學(xué)家和醫(yī)生討論最激烈的問(wèn)題之一。
1957年,有兩位學(xué)者在《不列顛醫(yī)學(xué)雜志》上發(fā)表了一組數(shù)據(jù),指出吸煙和肺癌有著顯著的聯(lián)系。這件事驚動(dòng)了當(dāng)時(shí)權(quán)威的統(tǒng)計(jì)學(xué)家費(fèi)希爾。他立即表明了自己的立場(chǎng):一是不贊成將此問(wèn)題拿到公共媒體上渲染,認(rèn)為這是一個(gè)嚴(yán)肅的科研問(wèn)題;二是認(rèn)為對(duì)于吸煙和肺癌是否有因果關(guān)系的理由還不充分。
費(fèi)希爾駁斥吸煙致癌假說(shuō)的一個(gè)重要科學(xué)主張是,可能存在某些不可觀測(cè)的因素,同時(shí)導(dǎo)致了人對(duì)尼古丁的渴求和患上肺癌。就像我們前面說(shuō)的,可能存在著變量C,同時(shí)影響了變量A和變量B。
在費(fèi)希爾看來(lái),人的基因可能才是兩者的公共原因,為此他展開(kāi)了很多研究和論證。不過(guò)這也使他陷入了一場(chǎng)醫(yī)學(xué)與統(tǒng)計(jì)學(xué)的長(zhǎng)期爭(zhēng)論。在隨后幾十年的時(shí)間里,不斷有資料證明吸煙和肺癌有很強(qiáng)的關(guān)聯(lián),費(fèi)希爾的主張失敗了。
醫(yī)學(xué)上很多杰出的發(fā)現(xiàn),存在一定的幸運(yùn)和巧合,或許只是某位醫(yī)生恰巧找到了那個(gè)唯一的病因。比如糞便污水中含有霍亂桿菌,霍亂桿菌會(huì)引發(fā)霍亂,而且它碰巧又是引發(fā)霍亂的唯一原因。
但是關(guān)于癌癥和吸煙,人們并沒(méi)有找到直接的因果關(guān)系。許多人一輩子抽煙,但沒(méi)有患上肺癌;也有人從來(lái)不吸煙,卻被診斷出了肺癌。導(dǎo)致肺癌的原因可能是家族遺傳,也可能是人們接觸了某些致癌物質(zhì),因?yàn)樵诋?dāng)時(shí)汽車開(kāi)始普及,無(wú)論是柏油道路的鋪設(shè),還是含鉛汽油尾氣的排放,都有可能使人們接觸致癌物質(zhì)。
統(tǒng)計(jì)學(xué)家無(wú)法給出確切證據(jù)的另一個(gè)原因是,這個(gè)案例無(wú)法用隨機(jī)對(duì)照實(shí)驗(yàn)進(jìn)行研究。統(tǒng)計(jì)學(xué)家無(wú)法隨機(jī)挑選一批人,讓他們吸上數(shù)十年煙,冒著可能損害身體健康的風(fēng)險(xiǎn),觀察他們患上肺癌的情況,這么做會(huì)存在職業(yè)道德風(fēng)險(xiǎn)。但如果沒(méi)有做過(guò)嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn),誰(shuí)也無(wú)法說(shuō)服像費(fèi)希爾這樣的統(tǒng)計(jì)學(xué)家認(rèn)同“吸煙致癌”這樣的因果性結(jié)論。
如今,我們知道“吸煙有害健康”,這句警示標(biāo)語(yǔ)被印在所有卷煙包裝上。但是,得到這個(gè)答案的過(guò)程比大多數(shù)人想象的艱難得多。
盡管在吸煙與肺癌的爭(zhēng)論中,費(fèi)希爾的觀點(diǎn)被證明是錯(cuò)的,但他的統(tǒng)計(jì)方法是正確的。費(fèi)希爾想要表達(dá)的是,數(shù)據(jù)的相關(guān)性并不代表因果性,要找到因果關(guān)系就要有正確的方法。從這個(gè)角度來(lái)看,這正好體現(xiàn)了統(tǒng)計(jì)學(xué)本身的嚴(yán)謹(jǐn)性和科學(xué)性。
02 醫(yī)學(xué)上的解決方案
長(zhǎng)久以來(lái),人們習(xí)慣性地認(rèn)為,連續(xù)相伴發(fā)生的兩件事存在因果關(guān)系,比如:烏云密布,傾盆大雨,所以烏云就是下雨的原因。傾盆大雨,道路泥濘,所以下雨是泥濘的原因。
醫(yī)學(xué)上,人們用這種現(xiàn)象來(lái)確定藥物療效,比如讓患者吃下某種藥物或進(jìn)行某種治療,然后觀察患者是否痊愈,如果痊愈就認(rèn)為治療是有效的。這屬于傳統(tǒng)臨床醫(yī)學(xué)。
18世紀(jì),英國(guó)哲學(xué)家休謨提出了一種懷疑主義觀點(diǎn),他認(rèn)為,人們從來(lái)沒(méi)有親身體驗(yàn)或親眼證實(shí)過(guò)因果關(guān)系本身,人們看到的永遠(yuǎn)是兩個(gè)相繼發(fā)生的現(xiàn)象。所以,一切被稱為因果關(guān)系的東西都是值得懷疑的,應(yīng)該重新審視。比如公雞鳴叫,太陽(yáng)升起。這兩個(gè)事情是相繼發(fā)生的,但是公雞鳴叫并不是太陽(yáng)升起的原因。
在醫(yī)學(xué)上,有些疾病無(wú)須治療也能自動(dòng)痊愈,比如口腔潰瘍和感冒;有些疾病只要給病人吃一些安慰劑,再加上一些心理暗示就能治愈。而以上情況,醫(yī)生所進(jìn)行的藥物治療都是多此一舉。
為了確認(rèn)因果性,醫(yī)學(xué)上常用的實(shí)驗(yàn)方法是大樣本隨機(jī)雙盲試驗(yàn)。它的步驟是這樣的。
首先要選擇一定數(shù)量的病人。挑選時(shí)有兩個(gè)原則。一是大樣本,因?yàn)闃颖驹蕉?#xff0c;統(tǒng)計(jì)結(jié)果越能稀釋掉特例。二是隨機(jī)性,這樣能避免病人因病情輕重不同導(dǎo)致痊愈效果的差異。
接著可以把病人們隨機(jī)分成三組。第一組是對(duì)照組,不做任何治療,用來(lái)觀察病人在沒(méi)有治療情況下疾病的自愈效果。第二組是安慰劑組,給病人吃沒(méi)有治療成分的“假藥”,用來(lái)觀察病人的心理作用對(duì)疾病的影響。第三組是治療組,給病人服下真藥,觀察藥物真實(shí)的治療效果。
在整個(gè)治療過(guò)程中,病人們并不知道自己屬于哪一組。這種隨機(jī)化的好處是消除了混雜在其中的選擇性偏差。最終觀察治療結(jié)果,如果第三組的治療效果明顯高于前兩組,則說(shuō)明該藥物或療法確實(shí)是有效的。
一開(kāi)始,整個(gè)試驗(yàn)過(guò)程只對(duì)病人盲測(cè),醫(yī)生知道病人的分組。但在實(shí)踐過(guò)程中,人們發(fā)現(xiàn),有些醫(yī)生會(huì)自覺(jué)或不自覺(jué)地給病人暗示,他們的主觀判斷和偏見(jiàn)會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生影響。
于是,人們改進(jìn)了盲測(cè)方法,整個(gè)試驗(yàn)過(guò)程連醫(yī)生都不知道自己身處哪一組,病人和醫(yī)生是“雙盲”的,所有的統(tǒng)計(jì)工作交由第三方完成。這么做能很好地屏蔽來(lái)自醫(yī)生的主觀偏見(jiàn),讓試驗(yàn)結(jié)果變得更加客觀和公正。
大樣本隨機(jī)雙盲試驗(yàn)是現(xiàn)今醫(yī)學(xué)界公認(rèn)的可以確定藥物療效的實(shí)用方法。它主張的原則是:為了確認(rèn)某個(gè)變量對(duì)實(shí)驗(yàn)結(jié)果有什么影響,就做一組比照實(shí)驗(yàn),只嘗試改變這個(gè)單一變量,然后觀察實(shí)驗(yàn)結(jié)果。
當(dāng)然,這個(gè)方法也有不完美的地方。有時(shí),實(shí)驗(yàn)中的相關(guān)變量很多,很難確定到底應(yīng)該控制和不控制哪些變量,以至于最終控制了真正想要測(cè)量的變量。但不管怎樣,大樣本隨機(jī)雙盲試驗(yàn)仍然是一套可遵循的、有效的用于驗(yàn)證因果性的數(shù)據(jù)統(tǒng)計(jì)方法。
關(guān)于作者:徐晟,某商業(yè)銀行IT技術(shù)主管,畢業(yè)于上海交通大學(xué),從事IT技術(shù)領(lǐng)域工作十余年,對(duì)科技發(fā)展、人工智能有自己獨(dú)到的見(jiàn)解,專注于智能運(yùn)維(AIOps)、數(shù)據(jù)可視化、容量管理等方面工作。
本文摘編自《大話機(jī)器智能:一書(shū)看透AI的底層運(yùn)行邏輯》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111696193)
《大話機(jī)器智能:一書(shū)看透AI的底層運(yùn)行邏輯》
點(diǎn)擊上圖了解及購(gòu)買
轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData
推薦語(yǔ):AI是什么?機(jī)器如何擁有“智能”?“智能”如何起作用?本書(shū)以通俗易懂的方式,勾勒人工智能的全貌,展現(xiàn)AI的底層運(yùn)行邏輯,即AI是如何工作的。
劃重點(diǎn)👇
干貨直達(dá)👇
建議收藏!數(shù)據(jù)中臺(tái)行業(yè)發(fā)展概況及展望
什么是元宇宙、新基建、賽博空間?7個(gè)最火科技名詞解釋,都在這里了
詳解6G系統(tǒng)數(shù)據(jù)治理方案的設(shè)計(jì)要點(diǎn)和原則
終于有人把監(jiān)督學(xué)習(xí)講明白了
更多精彩👇
在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
讀書(shū)?|?書(shū)單?|?干貨?|?講明白?|?神操作?|?手把手
大數(shù)據(jù)?|?云計(jì)算?|?數(shù)據(jù)庫(kù)?|?Python?|?爬蟲(chóng)?|?可視化
AI?|?人工智能?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP
5G?|?中臺(tái)?|?用戶畫像?|?數(shù)學(xué)?|?算法?|?數(shù)字孿生
據(jù)統(tǒng)計(jì),99%的大咖都關(guān)注了這個(gè)公眾號(hào)
👇
總結(jié)
以上是生活随笔為你收集整理的为什么相关性不等于因果性?终于有人讲明白了的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 人工智能自拍之后,会怎样给自己P图?
- 下一篇: 故宫首开夜场门票秒空官网崩溃:7本书让网