传说中的贝叶斯统计到底有什么来头?
傳說中的貝葉斯統(tǒng)計到底有什么來頭?
2016-08-17 20:37 Blake 0條評論貝葉斯統(tǒng)計在機器學習中占有一個什么樣的地位,它的原理以及實現(xiàn)過程又是如何的?本文對相關概念以及原理進行了介紹。
引言:在很多分析學者看來,貝葉斯統(tǒng)計仍然是難以理解的。受機器學習這股熱潮的影響,我們中很多人都對統(tǒng)計學失去了信心。我們的關注焦點已經(jīng)縮小到只探索機器學習了,難道不是嗎?
機器學習難道真的是解決真實問題的唯一方法?在很多情況下,它并不能幫助我們解決問題,即便在這些問題中存在著大量數(shù)據(jù)。從最起碼來說,你應該要懂得一定的統(tǒng)計學知識。這將讓你能夠著手復雜的數(shù)據(jù)分析問題,不管數(shù)據(jù)的大小。
在18世界70年代,Thomas Bayes提出了“貝葉斯理論”,即便在幾個世紀后,貝葉斯統(tǒng)計的重要性也沒有減弱。事實上,世界上那些最優(yōu)秀的大學都在教授有關這個話題的深度課程。
在真正介紹貝葉斯統(tǒng)計之前,首先來了解下頻率統(tǒng)計這個概念。
1. 頻率統(tǒng)計
有關頻率統(tǒng)計和貝葉斯統(tǒng)計的爭論以及持續(xù)了好幾個世紀,因此對于初學者來說理解這兩者的區(qū)別,以及如何劃分這兩者十分重要。
它是統(tǒng)計領域中應用最為廣泛的推理技術。事實上,它是初學者進入統(tǒng)計學世界中的第一所學校。頻率統(tǒng)計檢測一個事件(或者假設)是否發(fā)生,它通過長時間的試驗計算某個事件發(fā)生的可能性(試驗是在同等條件下進行的)。
在此處,使用固定大小的采樣分布作為例子。然后該實驗理論上無限次重復的,但實際上是帶著停止的意圖的。例如當我腦海中帶著停止的意圖時,它重復1000次或者在擲硬幣過程中我看到最少300詞頭在上的話,我將停止進行實驗?,F(xiàn)在讓我們進一步了解:
通過擲硬幣的例子我們就會明白頻率統(tǒng)計,目的是估計拋硬幣的公平性,下表是代表拋硬幣過程中頭在上的次數(shù):
我們知道在公平的擲硬幣過程中得到一個頭在上的那概率為0.5。我們使用No. of heads表示所得頭在上的實際數(shù)量。Difference表示0.5*(No. of tosses) 與 no. of heads之間的差別。
要注意的是,雖然投擲的數(shù)量增加時,頭在上的實際數(shù)量和頭在上的預期數(shù)(拋擲數(shù)目的50%)之間的差異會逐漸增大。但是以拋擲的總數(shù)來說,頭在上出現(xiàn)的比例接近0.5(一個公平的硬幣)。
該實驗中我們在頻率方法中發(fā)現(xiàn)了一個很常見的缺陷:實驗結果的獨立性與實驗次數(shù)是重復的。
2. 頻率統(tǒng)計的內(nèi)在缺陷
到這里,我們開始來探討頻率統(tǒng)計的缺陷:
在20世紀有大量的頻率統(tǒng)計被應用到許多模型中來檢測樣本之間是否不同,一個參數(shù)要放在模型和假設檢驗的多種表現(xiàn)中足夠重要。但是頻率統(tǒng)計在設計和實現(xiàn)過程存在一些重大缺陷,這些在現(xiàn)實中的問題引起相當大的關注。例如:
1. p-values 對固定大小的樣本進行檢測。如果兩個人對相同的數(shù)據(jù)工作,并有不同的制動意向,他們可能會得到兩種不同的p- values。
2. 置信區(qū)間(CI)和p-value一樣,在很大程度上取決于樣本的大小。因為無論多少人如何執(zhí)行相同的數(shù)據(jù)測試,其結果應該是一致的。
3. 置信區(qū)間(CI)不是概率分布,因此它們不提供最可能的值以及其參數(shù)。
這三個理由足以讓你對于頻率統(tǒng)計的缺陷進行思考,以及對為什么需要貝葉斯方法進行考慮。
有關貝葉斯統(tǒng)計的基礎知識就先了解到這里。
3.貝葉斯統(tǒng)計
“貝葉斯統(tǒng)計是將概率運用到統(tǒng)計問題中的數(shù)學過程。它提供給人們工具來更新數(shù)據(jù)中的證據(jù)?!币玫睦斫膺@個問題,我們需要對于一些概念要有所認識。此外,也需要有一定的前提:
線性代數(shù)
概率論與數(shù)基本統(tǒng)計
3.1條件概率
條件概率被定義為:事件A中給定事件B的概率等于B和A一起發(fā)生的概率再除以B的概率
例如:如下圖所示設兩部分相交集A和B
集合A代表一組事件,集合B代表了另一組。我們希望計算給定B的概率已經(jīng)發(fā)生了的概率,讓我們用紅色代表事件B的發(fā)生。
現(xiàn)在,因為B已經(jīng)發(fā)生了,現(xiàn)在重要的A的部分是在藍色陰影部分。如此,一個給定的B的概率是:
因此,事件B的公式是:
要么
現(xiàn)在,第二方程可以改寫為:
這就是所謂的條件概率。
假設,B是James Hunt的中獎事件,A是一個下雨的事件。因此,
P(A)= 1/2,由于每倆天都會下一次雨。
P(B)為1/4,因為詹姆斯每四次比賽只贏一次。
P(A | B)= 1,因為每次下雨James都贏。
條件概率公式中代入數(shù)值,我們得到的概率在50%左右,這幾乎是25%的兩倍(下雨的情況不考慮)。
也許,你已經(jīng)猜到了,它看起來像貝葉斯定理。
貝葉斯定理建立在條件概率的頂部,位于貝葉斯推理的心臟地區(qū)。?
3.2 貝葉斯定理
下圖可以幫助理解貝葉斯定理:
現(xiàn)在,B可被寫為
因此,B的概率可以表示為,
但
因此,我們得到
這就是貝葉斯定理方程。
4.貝葉斯推理
讓我們從拋硬幣的例子來理解貝葉斯推理背后的過程:
貝葉斯推理中一個重要的部分是建立參數(shù)和模型。
模型觀察到的事件的數(shù)學公式,參數(shù)是在模型中影響觀察到數(shù)據(jù)的因素。例如在擲硬幣過程中,硬幣的公平性?可以被定義為θ——表示硬幣的參數(shù)。事件的結果可以用D表示
4個硬幣頭朝上的概率即給定硬幣(θ)的公平性,即P(D|θ)
讓我們用貝葉斯定理表示:
P(θ|D)=(P(D|θ) X P(θ))/P(D)
P(D|θ) 是考慮到我們給定分布θ時,我們結果的可能性。如果我們知道硬幣是公平的,這就是觀測到的頭朝上的概率。
P(D)就是證據(jù),這是因為通過在θ的所有可能的值,是θ的那些特定值加權求和(或積分)確定的數(shù)據(jù)的概率。
如果我們的硬幣的公正性是多個視圖(但不知道是肯定的),那么這告訴我們看到翻轉(zhuǎn)的一定順序為我們在硬幣的公平信念所有可能性的概率。
P(θ|D)?是觀察,即頭在上數(shù)目之后我們的參數(shù)。
4.1 伯努利近似函數(shù)
回顧讓我們了解了似然函數(shù)。所以,我們得知:
它是觀察翻轉(zhuǎn)為硬幣的一個給定的公平的特定數(shù)目的磁頭的特定數(shù)目的概率。這意味著我們的觀察頭概率/萬尾取決于硬幣(θ)的公平性。
P(y=1|θ)=? [如果硬幣是公平的θ= 0.5,觀察到頭的概率(Y = 1)為0.5]
P(y=0|θ)=?[如果硬幣是公平的θ= 0.5,觀察到尾部的概率(Y = 0)為0.5]
值得注意的是,1為頭和0為尾是一個數(shù)學符號制定的典范。我們可以將上述數(shù)學定義結合成一個單一的定義來表示兩者的結果的概率。
P(Y |θ)=?
這就是所謂的伯努利近似函數(shù),拋硬幣的任務被稱為伯努利試驗。
y={0,1},θ=(0,1)
而且,當我們想看到一系列的頭或翻轉(zhuǎn),它的概率為:
此外,如果我們感興趣的是頭的數(shù)目的概率?在卷起?數(shù)翻轉(zhuǎn)下的情況,則概率如下所示:
4.2 前置信度分布
這個分布用于表示關于基于以往的經(jīng)驗,我們的參數(shù)分布情況。
但是,如果一個人沒有之前的經(jīng)驗呢?
不用擔心,數(shù)學家們想出了方法來緩解這一問題。它被認為是uninformative priors。
那么,用來表示先驗數(shù)學函數(shù)稱為beta distribution,?它有一些非常漂亮的數(shù)學特性,使我們對建模有關二項分布有所了解。
Beta分布的概率密度函數(shù)的形式為:
在這里,我們的焦點停留在分子上,分母那里只是為了確保整合后的總概率密度函數(shù)的計算結果為1。
α和 β被稱為形狀決定密度函數(shù)的參數(shù)。這里α類似于試驗中出現(xiàn)頭的數(shù)量,β對應于實驗中尾的數(shù)量。下圖將幫助您想象不同值中?α和?β的測試分布
你也可以使用R中的代碼繪制自己的Beta分布:
> library(stats)
> par(mfrow=c(3,2))
> x=seq(0,1,by=o.1)
> alpha=c(0,2,10,20,50,500)
> beta=c(0,2,8,11,27,232)
> for(i in 1:length(alpha)){
? ? ? ?y<-dbeta(x,shape1=alpha[i],shape2=beta[i])
? ? ? ?plot(x,y,type="l")
}
注:?α和β是直觀的理解,因為它們可以通過已知的平均值(μ)和分布的標準偏差(σ)來計算。實際上,它們是相關的:
如果分發(fā)的平均值和標準偏差是已知的,那么有形狀參數(shù)可以容易地計算出來。
從上面的圖表可以推理出:
當沒有拋擲的時候,我們認為硬幣的公平性可以通過一條平滑的線來描繪。
當頭比尾部出現(xiàn)的更多時,圖中顯示的峰值向右一側(cè)移動,表明頭出現(xiàn)的可能性較大,以及硬幣是不公平的。
隨著越來越多的拋擲動作完成后,頭所占比重較大的峰值變窄,增加了我們對硬幣拋擲公正性的信心。
4.3 后置信度分布
我們選擇之前所相信的原因是為了獲得一個β分布,這是因為當我們用一個近似函數(shù)相乘,后驗分布產(chǎn)生類似于現(xiàn)有分配,這是很容易涉及到和理解的形式。
使用貝葉斯定理進行計算
之間的公式變?yōu)?/p>
只要知道的平均值和我們的參數(shù)標準發(fā)布??θ,并通過觀察頭的N翻轉(zhuǎn),可以更新我們對模型參數(shù)的(θ)。
讓我們用一個簡單的例子來理解這一點:
假設,你認為一個硬幣有失偏頗。它具有為0.1的標準偏差,約0.6的平均(μ)偏差。
然后 ,α= 13.8?,?β=9.2
假設你觀察到80次頭在上(z=80在100翻轉(zhuǎn)中)(?N=100)。則
prior = P(θ|α,β)=P(θ|13.8,9.2)
Posterior = P(θ|z+α,N-z+β)=P(θ|93.8,29.2)
將其圖像化:
上述圖中的R代碼實現(xiàn)過程是:
> library(stats)
> x=seq(0,1,by=0.1)
> alpha=c(13.8,93.8)
> beta=c(9.2,29.2)
>?for(i in 1:length(alpha)){
? ? ? y<-dbeta(x,shape1=alpha[i],shape2=beta[i])
? ? ? plot(x,y,type="l",xlab = "theta",ylab = "density")
}
隨著越來越多的翻轉(zhuǎn)被執(zhí)行,以及新的數(shù)據(jù)觀察到,我們能進一步得到更新,這是貝葉斯推理的真正力量。
5. 測試意義——頻率論VS貝葉斯
無需使用到嚴格的數(shù)學結構,這部分將提供不同的頻率論和貝葉斯方法預覽。相關的簡要概述,以及測試組哪種方法最可靠,和它們的顯著性和差異性。
5.1 p值
針對特定樣本的t分和固定大小樣本中的分布是計算好的,然后p值也被預測到了。我們可以這樣解釋p值:(以p值的一例0.02均值100的分布):有2%的可能性的樣品將具有等于100的平均值。
這種解釋說明從取樣不同尺寸的分布,人們勢必會得到不同的T值,因此不同的p值的缺陷受到影響。p值小于5%并不能保證零假設是錯誤的,也沒有p值大于5%確保零假設是正確的。
5.2 置信區(qū)間
置信區(qū)間也有同樣的缺陷,此外因CI不是一個概率分布,沒有辦法知道哪些值是最有可能的。
5.3 貝葉斯因子
貝葉斯因子是p值在貝葉斯框架等價量。
零假設在貝葉斯框架:僅在一個參數(shù)的特定值(例如θ= 0.5)和其他地方零概率假定∞概率分布。(M1)
另一種假設是θ的所有值都是可能的,因此代表分布曲線是平坦的。(M2)
現(xiàn)在,新數(shù)據(jù)的后驗分布如下圖所示。
θ的各種值代表貝葉斯統(tǒng)計調(diào)整可信度(概率)。可以很容易地看出,概率分布已經(jīng)轉(zhuǎn)向M2具有更高的值M1,即M2更可能發(fā)生。
貝葉斯因子不依賴于θ的實際分配值,但在M1和M2的值幅度間移位。
在面板A(上圖所示):左邊欄是零假設的先驗概率。
在圖B(上圖所示),左邊欄是零假設的后驗概率。
貝葉斯因子被定義為后驗概率的對現(xiàn)有的進行對比:
要拒絕零假設,BF <1/10是首選。
我們可以看到使用貝葉斯因子代替p值的好處,它們具有獨立的意圖和樣本量。?
5.4 高密度間隔(HDI)
HDI由后驗分布觀察新數(shù)據(jù)形成,由于HDI是一個概率,95%的HDI給出95%的最可信的值。它也保證了95%的值將處于不同的CI區(qū)間。
請注意,前95%的HDI比95%后驗分布更廣泛,這是因為我們在HDI中增加了對新數(shù)據(jù)的觀察。
總結:貝葉斯統(tǒng)計作為一個基礎算法,在機器學習中占據(jù)重要的一席之地。特別是在數(shù)據(jù)處理方面,針對事件發(fā)生的概率以及事件可信度分析上具有良好的分類效果。
總結
以上是生活随笔為你收集整理的传说中的贝叶斯统计到底有什么来头?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google Deepmind大神Dav
- 下一篇: Ubuntu 16.04 LTS下编译G