数学基础:高斯分布
1. 最大似然估計(MLE)
? ? ? ?概念:給定一堆數據,假如我們知道它是從某一種分布中隨機取出來的,可是我們并不知道這個分布具體的參數,即“模型已定,參數未知”。例如,已知分布是正態分布,但是不知道均值和方差;或者已知是二項分布,但是不知道均值。 最大似然估計(MLE,Maximum Likelihood Estimation)就可以用來估計模型的參數。
? ? ? MLE的目標是找出一組參數,使得模型產生出觀測數據的概率P(x|θ)最大。
1)概率和統計是一個東西嗎? ? ? ?
? ? ? ?概率(probabilty)和統計(statistics)看似兩個相近的概念,其實研究的問題剛好相反。 ? ?
? ? ? ?一句話總結:概率是已知模型和參數,推數據。統計是已知數據,推模型和參數。
2)?貝葉斯公式到底在說什么? ? ? ?
? ? ?貝葉斯公式就是在描述,你有多大把握能相信一件證據? ? ? ?
? ? ?從一個角度總結貝葉斯公式:做判斷的時候,要考慮所有的因素; ? ? ?
? ? ?從另一個角度思考貝葉斯公式:一個本來就難以發生的事情,就算出現某個證據和他強烈相關,也要謹慎。證據很可能來自別的雖然不是很相關,但發生概率較高的事情。
3)似然函數 ? ? ?
? ? ? ?似然(likelihood)這個詞其實和概率(probability)是差不多的意思。但是在統計里面,似然函數和概率函數卻是兩個不同的概念(其實也很相近就是了)。
? ? ? ?對于這個函數:P(x|θ),輸入有兩個:x表示具體的數據;θ表示模型的參數。
? ? ? ?(1)如果θ是已知確定的,x是變量,這個函數叫做概率函數(probability function),它描述對于不同的樣本點x,其出現概率是多少。
? ? ? ?(2)如果x是已知確定的,θ是變量,這個函數叫做似然函數(likelihood function), 它描述對于不同的模型參數,出現x這個樣本點的概率是多少。
2. 最大后驗概率估計(MAP)? ? ? ??
? ? ? 與最大似然估計類似,但最大后驗估計的融入了要估計量的先驗分布在其中。故最大后驗估計可以看做規則化的最大似然估計。 ? ? ? ? ?
? ? ? (1)最大似然估計:是求參數θ, 使似然函數P(x|θ)最大。
? ? ? (2)最大后驗概率估計:則是想求θ使P(x|θ)P(θ)最大。求得的θ不單單讓似然函數大,θ自己出現的先驗概率也得大。 (這有點像正則化里加懲罰項的思想,不過正則化里是利用加法,而MAP里是利用乘法) ? ? ? ? ?
? ? ? MAP,其實是在最大化P(θ|x)=P(x|θ)P(θ)/P(x),不過因為x是確定的(即投出的“反正正正正反正正正反”),P(x)是一個已知值,所以去掉了分母P(x)(假設“投10次硬幣”是一次實驗,實驗做了1000次,“反正正正正反正正正反”出現了n次,則P(x)=n/1000。總之,這是一個可以由數據集得到的值)。最大化P(θ|x)的意義也很明確,x已經出現了,要求θ取什么值使P(θ|x)最大。順帶一提,P(θ|x)即后驗概率,這就是“最大后驗概率估計”名字的由來。
無偏估計:?估計量的數學期望等于被估計參數的真實值,則稱此此估計量為被估計參數的無偏估計,即
有偏估計:?若θ^的數學期望不為θ,即E,則稱為θ的有偏估計。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? 如果(E為單位矩陣,AT表示“矩陣A的轉置矩陣”)或,則n階實矩陣A稱為正交矩陣,正交矩陣。
3. 概率密度函數角度
? ? ? 以高維高斯分布為例:
?
4. 局限性
(1)參數多
(2)用一個高斯分布無法準確表示模型,因此有了GMM高斯混合模型(多個高斯)
?
總結
- 上一篇: 高斯过程回归(GPR)—— 数学推导
- 下一篇: 拉格朗日乘子法 KKT条件