统计学习II.7 广义线性模型1 指数分布族
統(tǒng)計學習II.7 廣義線性模型1 指數分布族
- 指數分布族的定義
- 指數分布族的例子
- Bernoulli分布
- Multinoulli分布
- 指數分布族的性質
- 指數分布族的MLE
- 指數分布族的貝葉斯方法
這一部分介紹廣義線性模型,這是一類監(jiān)督學習方法,通常用來構造分類器等。考慮{(Xi,Yi)}i=1N\{(X_i,Y_i)\}_{i=1}^N{(Xi?,Yi?)}i=1N?,廣義線性模型通常假設YiY_iYi?服從某種指數分布族。因此這一部分先介紹指數分布族,然后介紹基于不同指數分布族導出的廣義線性模型的不同效果。
指數分布族的定義
用p(x∣θ)p(x|\theta)p(x∣θ)表示某個密度函數,稱它是指數分布族(exponential family)如果:
p(x∣θ)=h(x)exp?(θT?(x)?A(θ))p(x|\theta) = h(x)\exp(\theta^T \phi(x)-A(\theta))p(x∣θ)=h(x)exp(θT?(x)?A(θ))
根據密度函數的歸一性,
∫p(x∣θ)dx=∫h(x)exp?(θT?(x)?A(θ))dx=exp?(?A(θ))∫h(x)exp?(θT?(x))dx=1\int p(x|\theta)dx =\int h(x)\exp(\theta^T \phi(x)-A(\theta))dx \\ = \exp(-A(\theta))\int h(x)\exp(\theta^T \phi(x))dx =1∫p(x∣θ)dx=∫h(x)exp(θT?(x)?A(θ))dx=exp(?A(θ))∫h(x)exp(θT?(x))dx=1
于是
A(θ)=log?Z(θ),Z(θ)=∫h(x)exp?(θT?(x))dxA(\theta)=\log Z(\theta), Z(\theta)=\int h(x)\exp(\theta^T\phi(x))dxA(θ)=logZ(θ),Z(θ)=∫h(x)exp(θT?(x))dx
其中θ\thetaθ被稱為natural parameter,?(X)\phi(X)?(X)是這個指數族的充分統(tǒng)計量(基于Fisher-Neyman定理),Z(θ)Z(\theta)Z(θ)是partition function,A(θ)A(\theta)A(θ)是cumulant function,如果?(X)=X\phi(X)=X?(X)=X,稱這樣的指數族為自然指數族(natural exponential family)。
指數分布的另一種形式為
p(x∣θ)=h(x)exp?(η(θ)T?(x)?A(η(θ)))p(x|\theta) = h(x)\exp(\eta(\theta)^T \phi(x)-A(\eta(\theta)))p(x∣θ)=h(x)exp(η(θ)T?(x)?A(η(θ)))如果dim?(θ)<dim?(η(θ))\dim(\theta)<\dim(\eta(\theta))dim(θ)<dim(η(θ)),稱之為curved exponential family,此時充分統(tǒng)計量的數目比參數多;如果dim?(θ)=dim?(η(θ))\dim(\theta)=\dim(\eta(\theta))dim(θ)=dim(η(θ)),稱之為canonical form;
指數分布族的例子
Bernoulli分布
p(x∣μ)=μx(1?μ)1?x=exp?(?(x)Tθ)p(x|\mu)=\mu^x(1-\mu)^{1-x}=\exp(\phi(x)^T\theta)p(x∣μ)=μx(1?μ)1?x=exp(?(x)Tθ)
其中
?(x)=[1x=0,1x=1]T,θ=[log?(μ),log?(1?μ)]T\phi(x)=[1_{x=0},1_{x=1}]^T,\theta=[\log(\mu),\log(1-\mu)]^T?(x)=[1x=0?,1x=1?]T,θ=[log(μ),log(1?μ)]T
這并不是一個好的表示,因為x∈{0,1}x \in \{0,1\}x∈{0,1},1T?(x)=11^T \phi(x)=11T?(x)=1,也就是說?(x)\phi(x)?(x)的兩個分量是線性相關的,這會導致在估計的時候θ\thetaθ只有一個方程。一種更好的表示方法是
p(x∣μ)=(1?μ)exp?[xlog?(μ1?μ)]=exp?(?(x)Tθ)=exp?(?(x)Tθ)p(x|\mu)=(1-\mu)\exp \left[ x\log \left( \frac{\mu}{1-\mu} \right) \right]=\exp(\phi(x)^T\theta)=\exp(\phi(x)^T\theta)p(x∣μ)=(1?μ)exp[xlog(1?μμ?)]=exp(?(x)Tθ)=exp(?(x)Tθ)
其中
?(x)=x,θ=log?(μ1?μ)\phi(x)=x,\theta = \log \left( \frac{\mu}{1-\mu} \right) ?(x)=x,θ=log(1?μμ?)
稱θ\thetaθ為log-odds ratio;從natural parameter還原為μ\muμ的函數是sigmoid函數
μ=sigm(θ)=11+e?θ\mu = sigm(\theta)=\frac{1}{1+e^{-\theta}}μ=sigm(θ)=1+e?θ1?
Multinoulli分布
p(x∣μ1,?,μK)=∏k=1Kμkxk=exp?[∑k=1K?1xklog?(μkμK)+log?μK]p(x|\mu_1,\cdots,\mu_K)=\prod_{k=1}^K \mu_k^{x_k}=\exp\left[ \sum_{k=1}^{K-1} x_k\log \left( \frac{\mu_k}{\mu_K}\right) +\log \mu_K\right]p(x∣μ1?,?,μK?)=k=1∏K?μkxk??=exp[k=1∑K?1?xk?log(μK?μk??)+logμK?]
其中
∑k=1Kμk=1\sum_{k=1}^K \mu_k = 1k=1∑K?μk?=1
于是
p(x∣θ)=h(x)exp?(θT?(x)?A(θ))p(x|\theta)=h(x)\exp(\theta^T \phi(x)-A(\theta))p(x∣θ)=h(x)exp(θT?(x)?A(θ))其中
θ=[log?μ1μK,?,log?μK?1μK]T,?(x)=[1x=1,?,1x=K?1]TA(θ)=log?(1+∑k=1K?1eθk)\theta=[\log \frac{\mu_1}{\mu_K},\cdots,\log \frac{\mu_{K-1}}{\mu_K}]^T,\phi(x)=[1_{x=1},\cdots,1_{x=K-1}]^T \\ A(\theta)=\log \left( 1+ \sum_{k=1}^{K-1} e^{\theta_k} \right)θ=[logμK?μ1??,?,logμK?μK?1??]T,?(x)=[1x=1?,?,1x=K?1?]TA(θ)=log(1+k=1∑K?1?eθk?)
從natural parameter還原到μ\muμ的方法為
{μk=eθk1+∑j=1K?1eθj,k=1,?,K?1μK=1∑j=1K?1eθj\begin{cases} \mu_k = \frac{e^{\theta_k}}{1+\sum_{j=1}^{K-1}e^{\theta_j}},k=1,\cdots,K-1 \\ \mu_K = \frac{1}{\sum_{j=1}^{K-1}}e^{\theta_{j}} \end{cases}????μk?=1+∑j=1K?1?eθj?eθk??,k=1,?,K?1μK?=∑j=1K?1?1?eθj??
指數分布族的性質
性質1
dAdθ=E[?(X)]\frac{dA}{d\theta}=E[\phi(X)]dθdA?=E[?(X)]
直接計算這個導數即可,下面的兩個性質也都是直接計算導數
dAdθ=ddθlog?∫h(x)exp?(θT?(x))dx=∫?(x)p(x∣θ)dx\frac{dA}{d\theta}=\fracvt6mr5x{d\theta}\log \int h(x)\exp(\theta^T\phi(x))dx=\int \phi(x)p(x|\theta)dxdθdA?=dθd?log∫h(x)exp(θT?(x))dx=∫?(x)p(x∣θ)dx
性質2
d2Adθ2=Var[?(X)]\frac{d^2A}{d\theta^2}=Var[\phi(X)]dθ2d2A?=Var[?(X)]
性質3
?2A(θ)=Cov(?(X))\nabla^2 A(\theta)=Cov(\phi(X))?2A(θ)=Cov(?(X))
指數分布族的MLE
指數分布族MLE的moment matching equation
假設X1,?,XN~iidp(x∣θ)X_1,\cdots,X_N \sim_{iid} p(x|\theta)X1?,?,XN?~iid?p(x∣θ), 似然函數為
L(θ∣X1,?,XN)=[∏i=1Nh(Xi)]exp?(θT∑i=1N?(Xi)?NA(θ))L(\theta|X_1,\cdots,X_N)=\left[ \prod_{i=1}^N h(X_i) \right] \exp \left( \theta^T \sum_{i=1}^N \phi(X_i) -NA(\theta)\right)L(θ∣X1?,?,XN?)=[i=1∏N?h(Xi?)]exp(θTi=1∑N??(Xi?)?NA(θ))
對數似然為
log?L(θ∣X1,?,XN)=log?[∏i=1Nh(Xi)]+θT∑i=1N?(Xi)?NA(θ)\log L(\theta|X_1,\cdots,X_N)=\log \left[ \prod_{i=1}^N h(X_i) \right] +\theta^T \sum_{i=1}^N \phi(X_i) -NA(\theta) logL(θ∣X1?,?,XN?)=log[i=1∏N?h(Xi?)]+θTi=1∑N??(Xi?)?NA(θ)
考慮MLE滿足的方程
?log?L(θ∣X1,?,XN)=∑i=1N?(Xi)?N?A(θ)=∑i=1N?(Xi)?NE[?(X)]=0\nabla \log L(\theta|X_1,\cdots,X_N) = \sum_{i=1}^N \phi(X_i)-N\nabla A(\theta)=\sum_{i=1}^N \phi(X_i)-NE[\phi(X)]=0?logL(θ∣X1?,?,XN?)=i=1∑N??(Xi?)?N?A(θ)=i=1∑N??(Xi?)?NE[?(X)]=0
也就是
E[?(X)]=1N∑i=1N?(Xi)E[\phi(X)]=\frac{1}{N}\sum_{i=1}^N \phi(X_i)E[?(X)]=N1?i=1∑N??(Xi?)
這里?(X)\phi(X)?(X)是指數分布的充分統(tǒng)計量,稱這個方程為moment matching equation,它的含義是充分統(tǒng)計量的樣本均值等于理論均值。
指數分布族的貝葉斯方法
指數分布族是一個共軛分布族
我們把似然函數寫成下面的形式:
L(θ∣X1,?,XN)∝g(θ)Neη(θ)TsN,sN=∑i=1Ns(Xi)L(\theta|X_1,\cdots,X_N)\propto g(\theta)^N e^{\eta(\theta)^T s_N},s_N = \sum_{i=1}^N s(X_i)L(θ∣X1?,?,XN?)∝g(θ)Neη(θ)TsN?,sN?=i=1∑N?s(Xi?)
引入指數函數族先驗,
p(θ∣nu0,τ0)∝g(θ)ν0eη(θ)Tτ0p(\theta|nu_0,\tau_0) \propto g(\theta)^{\nu_0}e^{\eta(\theta)^T \tau_0}p(θ∣nu0?,τ0?)∝g(θ)ν0?eη(θ)Tτ0?
則后驗為
p(θ∣ν0+N,τ0+sN)∝g(θ)ν0+Neη(θ)T(τ0+sN)p(\theta|\nu_0+N,\tau_0+s_N)\propto g(\theta)^{\nu_0+N}e^{\eta(\theta)^T(\tau_0+s_N)}p(θ∣ν0?+N,τ0?+sN?)∝g(θ)ν0?+Neη(θ)T(τ0?+sN?)
總結
以上是生活随笔為你收集整理的统计学习II.7 广义线性模型1 指数分布族的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 偏微分方程I PDE的例子1 一维波动与
- 下一篇: R语言数据可视化 ggplot2基础2