一维数据高斯滤波器_透彻理解高斯混合模型
高斯混合模型GMM是一個非常基礎并且應用很廣的模型。對于它的透徹理解非常重要。
本文從高斯分布開始逐步透徹講解高斯混合模型
高斯分布
高斯分布有兩個參數:
- μ = mean(數據的中心)
- σ2 =variance(數據的分布擴展范圍)
μ是高斯分布的位置參數。由概率密度函數圖像可知,離μ越近概率密度越大,離μ越遠概率越小。高斯分布以X=μ為對稱軸,左右完全對稱。期望、均數、中位數、眾數相同,均等于μ。
σ2描述數據分布的離散程度,σ越大,數據分布越分散;反之,越聚集。也是高斯分布的形狀參數,σ越大,曲線越平扁;反之,σ越小,曲線越瘦峭。
一維高斯分布
下圖的數據就是由上圖的高斯分布產生的。
高斯分布有如下重要性質
- 中心極限定理:大量相同分布的隨機變量的和傾向于高斯分布。
- 高斯隨機變量的和與差仍然是高斯。
- 如果X分布為N (μ, σ2)。。。
- aX + b分布為N (aμ + b, (aσ)2)
- 負對數看起來像加權歐幾里德距離
二維高斯分布
如上公式所示,二維聯合高斯分布的概率密度,從幾何上講,二維高斯分布在二維空間投影近似于橢圓,整個概率密度函數在三維空間上近似于橢球體。
可以參考本頭條號另一篇文章《透徹理解高斯分布》一樣,二維獨立變量高斯分布的指數化簡成橢圓曲線的形式,其中r表示其相關系數,如果r = 0,表示兩個變量相互獨立,聯合概率密度為各自密度的乘積。
如果x1,x2不相關。知道x1并不能告訴你關于x2的一切。
下圖是r = 0, σ1 = σ2時的分布圖形:
x1,x2可以是不相關的并且具有不同的方差。即r = 0, σ1 !=σ2
如果x1,x2相關。那么知道x1能告訴獲得一些關于x2的信息
我們把二維高斯分布的協方差矩陣寫成如下的形式:
其中, x = (x1, x2), μ = (μ1, μ2)
求對數,與加權歐幾里德距離很相似
如果協方差是對角陣:
高斯估計
數據與分布的匹配
通過獲得的訓練數據,如何選擇參數μ、Σ,才能使數據和分布相匹配?
如果分布產生訓練數據的可能性很高,就說明數據和分布相匹配的概率很高。
所以,我們用最大似然估計(Maximum Likelihood Estimate,MLE),尋找最優參數μ、Σ,使之最大化訓練數據的可能性。表達形式如下:
假設我們開始選擇了"正確"的分布。然后,隨著訓練樣本數量的增加,MLE會接近"真實"參數。MLE是非常有效的,對于許多類型的模型,MLE是容易的。
MLE求解
最大似然估計是有封閉形式解的。
求對參數求偏導:
求得:
多維變量時,其均值和協方差是:
高斯估計的缺陷:并不是所有數據都是高斯分布。但是,如果用多個高斯分布(注意,是多個,不是多維),實踐證明,是可以表達任何分布的,這就是我們接下來要講的高斯混合模型GMM。
高斯混合模型
Σj pj = 1 , pj ≥ 0
這就是高斯混合模型。如果使用足夠的高斯成分,可以很好地估計任何分布。給定訓練數據,如何估計參數μj , Σj , 和混合權重 pj。
為了最大化數據的概率?沒有封閉形式的解決方案。我們只能使用優化技術。
我們選擇期望最大化算法(Expectation Maximum)。
EM算法就是一個求解GMM的算法,其過程如下:
- 調整每次迭代中的參數估計值
- 這樣的數據可能性每次迭代都會不斷地增加
最后找到最優值。
隱藏變量
無法觀察到的隨機變量。在GMM計算最后的概率,取決于1、各個產生數據的混合組成部分產;2、各個部分的參數。而這個混合部分就是隱藏變量。
計算數據x的概率,需要計算在隱藏變量h的所有可能值下條件概率之和:
考慮高斯混合的概率分布
- h ?哪個組件生成樣本
- P(h) = pj ; P(x |h) = N (μj , Σj )
如果確定每個xi的隱藏值,模型不再隱藏!例如,在GMM組件之間已經劃分了數據。
因此,對于每個數據點xi,分配單個隱藏值hi。取hi = arg maxh P(h)P(xi |h),確定產生每個點的GMM組成部分分量。
在非隱藏模型中訓練參數是非常容易的。我們通過更新P(h), P(x |h)中的參數。獲得μj , Σj , pj的MLE。
所以,我們有以下可選的處理方式:
非常“硬”的處理方式:
對于每個xi,分配單個hi = arg maxh P(h, xi ),數量為和1。然后繼續其他步驟。
比較“軟”的處理方式:
對于每個xi,計算每個h的后驗概率:
也稱為"分數計數",我們得到每個組件的概率
由于硬處理方式直接分配hi,非常主觀,顯然是事可取的。所以我們選擇軟的處理方式。
EM算法步驟
1.以某種方式初始化參數值。
2.迭代
- 期望步驟:計算每個xi的h的后驗概率:
- 最大化步驟:更新參數
假定非隱藏數據已經獲得,而不是隱藏h的數據xi
本文主要講解GMM,EM算法就不詳細推導了,后面會專門發文講解。
總結
以上是生活随笔為你收集整理的一维数据高斯滤波器_透彻理解高斯混合模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: kafka partition分配_Ka
- 下一篇: rust石头墙几个c4_哪个房间需要清扫