信息论学习总结
我們考慮一下一個離散的隨機變量x,當我們觀察到它的一個值,能給我們帶來多少信息呢?這個信息量可以看做是我們觀察到x的這個值帶來的驚訝程度。我們被告知一個不太可能發生的事發生了要比告知一個非常可能發生的事發生,我們獲得信息要多。
所以信息量的多少依賴于概率分布p(x),所以我們可以用關于p(x)的一個函數來建模信息量h(x).那什么函數模型適合表達呢?
我們觀察兩個相互獨立的事件x,y,我們觀察它得到的信息量,要和單獨觀察他們得到的信息量之和相等。即
h(x,y) = h(x) + h(y)
而兩個獨立的時間x,y的概率關系:
p(x,y) = p(x) p(y)
基于上面的觀察,信息量必須和p(x)的log函數相關。
所以我們得到:
加上負號,可以保證信息量大于等于0。注意一個小概率事件,具有更高的信息量。
log的底數選擇并沒有限制。信息論中大多都采用2,傳輸這些信息量需要的2進制位數。
如果我們想傳輸這個隨機變量的值,我們傳輸的平均信息量,可以表示為關于分布
p(x)的期望:
所以信息量的多少依賴于概率分布p(x),所以我們可以用關于p(x)的一個函數來建模信息量h(x).那什么函數模型適合表達呢?
我們觀察兩個相互獨立的事件x,y,我們觀察它得到的信息量,要和單獨觀察他們得到的信息量之和相等。即
h(x,y) = h(x) + h(y)
而兩個獨立的時間x,y的概率關系:
p(x,y) = p(x) p(y)
基于上面的觀察,信息量必須和p(x)的log函數相關。
所以我們得到:
加上負號,可以保證信息量大于等于0。注意一個小概率事件,具有更高的信息量。
log的底數選擇并沒有限制。信息論中大多都采用2,傳輸這些信息量需要的2進制位數。
如果我們想傳輸這個隨機變量的值,我們傳輸的平均信息量,可以表示為關于分布
p(x)的期望:
總結
- 上一篇: 局部敏感哈希(Locality-Sens
- 下一篇: 使用SGD(Stochastic Gra