用于精准判断的贝叶斯定理
? ? 說起貝葉斯定理,不得不說條件概率,所謂“條件概率”(Conditional probability),指在事件B發(fā)生的情況下,事件A發(fā)生的概率,用P(A|B)來表示。條件概率計(jì)算公式為P(A|B) = P(AB)/P(B)。
? ? 條件概率公式是一個(gè)定義公式,或者說是公理化的,不好證明和推導(dǎo)。只能通過邏輯來理解了,AB都發(fā)生的概率可以理解成B發(fā)生的概率乘以B發(fā)生的情況下A發(fā)生的概率,也即P(AB)=P(B)P(A|B),兩邊除以P(B),得到P(A|B)=P(AB)/P(B)。
? ? ? ?舉個(gè)例子:根據(jù)大量數(shù)據(jù)統(tǒng)計(jì),大熊貓活到十歲的概率是0.8,活到十五歲的概率是0.6,若現(xiàn)有一只大熊貓已經(jīng)十歲了,則他活到十五歲的概率是多少?
? ? 根據(jù)條件概率公式:P(15歲|10歲)=P(15歲*10歲)/P(10歲),大熊貓活到十五歲,顯然就活過了十歲,所以P(15歲*10歲)=P(15歲),則P(15歲|10歲)=P(15歲)/P(10歲)=0.6/0.8=0.75。
? ? ? ?理解了條件概率后,我們再來看看貝葉斯定理。
?
? ? ? ?貝葉斯定理由英國數(shù)學(xué)家貝葉斯 ( Thomas Bayes 1702-1761 )提出,即:P(A|B)=P(B|A)P(A)/P(B)。
? ? ? ?有了條件概率公式,貝葉斯定理的推導(dǎo)和證明非常簡單。
? ? ? ?根據(jù)條件概率定義:
P(A|B)=P(AB)/P(B),同理P(B|A)=P(BA)/P(A)
則:P(AB)=P(A|B)P(B),P(BA)=P(B|A)P(A)
P(AB)表示A、B同時(shí)發(fā)生的概率,P(BA)表示B、A同時(shí)發(fā)生的概率,根據(jù)交換律,P(AB)=P(BA)
所以,P(A|B)P(B)=P(B|A)P(A)
則:P(A|B)=P(B|A)P(A)/P(B)
? ? ? ?貝葉斯定理本身和其證明過程都簡單明了,看起來不起眼,但在實(shí)際應(yīng)用中卻顯示出了令人吃驚的強(qiáng)大!
? ? ? ?在舉實(shí)例之前,先了解下貝葉斯定理中的一些概念,把貝葉斯公式作下變形,得到如下形式:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?P(A|B) = (P(B|A)/P(B))*P(A)
? ? ? ?其中,把P(A)稱為“先驗(yàn)概率”(Prior probability),即在B事件發(fā)生之前,我們對A事件概率的一個(gè)判斷。P(A|B)稱為“后驗(yàn)概率”(Posterior probability),即在B事件發(fā)生之后,我們對A事件概率的重新評估。P(B|A)/P(B)稱為“調(diào)整因子”,調(diào)整因子可以大于1,也可以小于1,即B事件發(fā)生后,對A事件發(fā)生的概率是增強(qiáng)作用還是削弱作用。
即貝葉斯定理可表述成:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?后驗(yàn)概率 = 調(diào)整因子 * 先驗(yàn)概率
? ? 當(dāng)然還有把P(B|A)稱為“似然度”,P(B)稱為“標(biāo)準(zhǔn)化常量”等。但個(gè)人認(rèn)為不摻雜太多的概念,先把貝葉斯定理理解成“后驗(yàn)概率 = 調(diào)整因子 * 先驗(yàn)概率”的方式更利于對該定理的理解。
? ? ? ?貝葉斯定理在做判斷上的應(yīng)用:
(1)有兩個(gè)碗,1號(hào)碗里有30顆水果糖和10塊巧克力糖,2號(hào)碗里有20顆水果糖和20塊巧克力糖。然后把碗蓋住。隨機(jī)選擇一個(gè)碗,從里面摸出了一顆水果糖。問題:這顆水果糖來自1號(hào)碗的概率是多少?
?
? ? 我們希望得到概率P(1號(hào)碗|水果糖),但怎樣進(jìn)行計(jì)算并非顯而易見。問題如果換成在1號(hào)碗中水果糖的概率則簡單的多,P(水果糖|1號(hào)碗)=30顆水果糖/(30顆水果糖和10塊巧克力糖)=3/4,但可惜的是條件概率并不滿足交換律,P(1號(hào)碗|水果糖)和P(水果糖|1號(hào)碗)并不相同。有時(shí),如果P(A|B)不好計(jì)算,而P(B|A)較好計(jì)算,那么可以試試貝葉斯定理,提供一種從P(B|A)得到P(A|B)的方法。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? P(1號(hào)碗|水果糖)=(P(水果糖|1號(hào)碗)/P(水果糖))*P(1號(hào)碗)
1).P(水果糖|1號(hào)碗)前面算過=3/4;
2).兩個(gè)碗的選擇是隨機(jī)的,所以P(1號(hào)碗)=1/2;
3).P(水果糖),兩個(gè)碗總糖果數(shù)是30顆水果糖+10塊巧克力糖+20顆水果糖+20塊巧克力糖=80,水果糖的數(shù)量是30+20=50,因此P(水果糖)=50/80=5/8;(注意這里是特例,因?yàn)檫x擇兩個(gè)碗的機(jī)會(huì)相等,兩個(gè)碗中糖果的數(shù)量又都一樣,一般情況下需要使用全概率公式計(jì)算。)
4).因此,P(1號(hào)碗|水果糖)=((3/4)/(5/8))*(1/2)=3/5。
5).這個(gè)例子我們需要關(guān)注的是信息條件:抓出的是水果糖。如果沒有這個(gè)條件的存在,先驗(yàn)概率P(1號(hào)碗)=1/2(50%),有個(gè)這個(gè)條件后,后驗(yàn)概率提升到了3/5(60%)。
? ? ? ??看到這里,很多朋友就要問了,能解決這個(gè)例子又有什么用呢?現(xiàn)實(shí)世界可不是摸個(gè)水果糖這么簡單。我們再看下一個(gè)例子:
(2)北京地區(qū)肝癌發(fā)病率為萬分之四(0.0004),使用甲胎蛋白法檢測,患者確實(shí)得病的情況下,99%呈現(xiàn)陽性,患者沒有得病的情況下,0.1%呈現(xiàn)陽性。現(xiàn)在一個(gè)患者肝癌檢測出陽性,問題:該患者患肝癌的概率是多少?
?
? ? ? ?我們把這兩個(gè)應(yīng)用對應(yīng)下:
? ? 有兩個(gè)碗(一個(gè)患肝癌碗,一個(gè)不患肝癌碗),1號(hào)碗里有水果糖99個(gè)(陽性糖99個(gè)),巧克力糖1個(gè)(陰性糖1個(gè)),2號(hào)碗里有水果糖1個(gè)(陽性糖1個(gè)),巧克力糖999個(gè)(陰性糖999個(gè)),隨機(jī)選擇一個(gè)碗,從里面摸出了一顆水果糖(陽性糖)。問題:這顆水果糖(陽性糖)來自1號(hào)碗(患肝癌碗)的概率是多少?
? ? ? ?看到?jīng)],除了水果糖和巧克力糖的數(shù)量不一樣,其他是不是一模一樣的!
? ? ? ?我們來計(jì)算下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?P(患肝癌|陽性)=(P(陽性|患肝癌)/P(陽性))*P(患肝癌)
1).P(陽性|患肝癌)=0.99;
2).P(患肝癌)=0.0004
3).P(陽性)的計(jì)算稍微復(fù)雜些,在這第二個(gè)例子中,患肝癌碗和不患肝癌碗的選擇機(jī)會(huì)是不均等的,2個(gè)碗中糖果的數(shù)量也不一樣。一般的,采用全概率公式來計(jì)算P(B)。設(shè)事件A為患肝癌,A-為不患肝癌,顯然A和A-是互斥和完備的,構(gòu)成全集空間,則根據(jù)全概率公式(推導(dǎo)過程見最后):P(B)=P(A)P(B|A)+P(A-)P(B|A-)。P(陽性)=P(患肝癌)P(陽性|患肝癌)+P(不患肝癌)P(陽性|不患肝癌)=0.0004*0.99+(1-0.0004)*(0.001)=0.001392
4).因此,P(患肝癌|陽性)=(P(陽性|患肝癌)/P(陽性))*P(患肝癌)=((0.99)/(0.001392))*(0.0004)=28.45%。
? ? 上面疾病檢測的例子在網(wǎng)上有很多,基本都從“假陽性”的方面說明陽性結(jié)果不足以說明病人得病。但從貝葉斯思想的角度上看,患肝癌的先驗(yàn)概率P(患肝癌)=0.0004(0.04%)的概率很低,在檢測結(jié)果呈陽性事件發(fā)生后,患肝癌的后驗(yàn)概率達(dá)到了28.45%,即呈陽性的事件大大增強(qiáng)了患肝癌的概率,這時(shí)候需要的是引起高度重視。當(dāng)然,從結(jié)果上看,檢測結(jié)果呈陽性而真實(shí)患肝癌的概率不到30%,這也是為什么肝癌檢測第一次呈陽性的人,還需要做第二次檢測的原因。
附:全概率公式的推導(dǎo)
?
設(shè)紅色部分A和綠色部分A-構(gòu)成全集空間S。
?
則B可分為2部分:白色斜線部分和黑色橫線部分。這兩部分分別等于P(BA)和P(BA-)。
因此,P(B)=P(BA)+P(BA-),根據(jù)條件概率公式:
P(B|A)=P(BA)/P(A),P(B|A-)=P(BA-)/P(A-),則:
P(BA)=P(B|A)P(A),P(BA-)=P(B|A-)P(A-)
所以:P(B)=P(B|A)P(A)+P(B|A-)P(A-)
?
參考文獻(xiàn):
(1)貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用(一):定理簡介http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html
(2)精準(zhǔn)的判斷,離不開精準(zhǔn)的概率計(jì)算:《得到App》-《卓老板聊科技》
?
總結(jié)
以上是生活随笔為你收集整理的用于精准判断的贝叶斯定理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python基本数据类型的注意事项
- 下一篇: 求约束条件下极值的拉格朗日乘子法