Entropy推导
信息論
???信息是關于事物的運動狀態和規律的認識,它可以脫離具體的事物而被攝取、傳輸、存貯、處理和變換。
???信息論,就是用數理統計方法研究信息的基本性質以及度量方法,研究最佳解決信息的攝取、傳輸、存貯、處理和變換的一般規律的科學。它的成果將為人們廣泛而有效地利用信息提供基本的技術方法和必要的理論基礎。
信息論的研究范圍分成三種不同類型:
(1)狹義信息論是一門應用數理統計方法來研究信息處理和信息傳遞的科學。它研究存在于通訊和控制系統中普遍存在著的信息傳遞的共同規律,以及如何提高各信息傳輸系統的有效性和可靠性的一門通訊理論。
(2)一般信息論主要是研究通訊問題,但還包括噪聲理論、信號濾波與預測、調制與信息處理等問題。
????(3)廣義信息論不僅包括狹義信息論和一般信息論的問題,而且還包括所有與信息有關的領域,如心理學、語言學、神經心理學、語義學等。
?
???狹義信息,是針對通信意義上的信息而言的。1948年,美國數學家C. E. Shannon發表的《通信的數學理論》。差不多同一時候,美國數學家N. Wiener發表了《時間序列的內插、外推和平滑化》以及專著《控制論》。他們分別解決了狹義信息的度量問題,并且得到了相同的結果。
????Shannon的論文還給出了信息傳輸問題的一系列重要成果,建立了比較完整而系統的信息理論,這就是Shannon信息論,也叫狹義信息論。Shannon理論的建立,在很大程度上澄清了通信的基本問題。它以概率論為工具,刻畫了信源產生信息的數學模型,導出了度量概率信息的數學公式;同時,它利用概率論的方法,描述了信道傳輸信息的過程,給出了表征信道傳輸能力的容量公式;此外,它還建立了一組信息傳輸的編碼定理,論證了信息傳輸的一些基本界限。Shannon的理論是通信科學發展史上的一個轉折點,它使通信問題的研究從經驗轉變為科學。
????作為運動狀態表現的廣義信息既具有一定的形式又具有一定的內容。在原則上,數學可以精確地刻畫形式。但是,如何從數學上定量地刻畫內容,至今仍是一個巨大的難題。一般的情形是用數學來表達形式,用語言來描述內容。但是,對于通信領域,通信只不過是信息的傳輸,因此可以把它看作是“在通信的一端精確地或近似地復現另一端所挑選的消息”,“至于通信的語義方面的問題,與工程方面的問題是沒有關系的”。由于通信的任務只是單純地復制消息,并不需要對信息的語義作任何處理和判斷。只要在通信接收端把發送端發出的消息從形式上復制出來,也就同時復現了它的語義內容。
?
????信息論的主要內容用語言來闡述。 一種簡潔的語言(以英語為例)通常有兩個重要特點: 首先,最常用的詞(比如"a", "the", "I")應該比不太常用的詞(比如"benefit", "generation", "mediocre")要短一些;其次,如果句子的某一部分被漏聽或者由于噪聲干擾(比如一輛車輛疾馳而過)而被誤聽,聽者應該仍然可以抓住句子的大概意思。而如果把電子通信系統比作一種語言的話,這種健壯性(robustness)是不可或缺的。將健壯性引入通信是通過信道編碼完成的。信源編碼和信道編碼是信息論的基本研究課題。
?
??自信息量I(ai)表示一個消息ai出現后所帶來的信息量,用其概率的負對數來表示,即I(ai)=-log2p(ai),因此I(ai)是非負值,并且是概率p(ai)的單調遞減函數。
?
熵
在信息論中,熵表示的是不確定性的量度。信息論的創始人香農在其著作《通信的數學理論》中提出了建立在概率統計模型上的信息度量。他把信息定義為“用來消除不確定性的東西”。
????1 Chaos(混沌),無序.物理學:除非施加能量,否則熵不會降低 舉例:把房間弄亂很容易,整理干凈不容易
????2 是不確定性(Uncertainty)的衡量, 不確定性越高,熵越高,我們從一次實驗中得到的信息量越大.
????3 熵也可以被視為描述一個隨機變量的不確定性的數量。一個隨機變量的熵越大,它的不確定性越大。那么,正確估計其值的可能性就越小。越不確定的隨機變量越需要大的信息量用以確定其值。
熵在信息論中的定義如下:
如果有一個系統S內存在多個事件S = {E1,...,En}, 每個事件的機率分布 P = {p1, ..., pn},則每個事件本身的訊息為
Ie = ? log2pi
(對數以2為底,單位是位元(bit))
Ie = ? lnpi
(對數以e為底,單位是納特/nats)
如英語有26個字母,假如每個字母在文章中出現次數平均的話,每個字母的訊息量為
I_e = -\log_2 {1\over 26} = 4.7
;而漢字常用的有2500個,假如每個漢字在文章中出現次數平均的話,每個漢字的信息量為
I_e = -\log_2 {1\over 2500} = 11.3
整個系統的平均消息量為
H_s = \sum_{i=1}^n p_i I_e = -\sum_{i=1}^n p_i \log_2 p_i
這個平均消息量就是消息熵。因為和熱力學中描述熱力學熵的玻耳茲曼公式形式一樣,所以也稱為“熵”。
如果兩個系統具有同樣大的消息量,如一篇用不同文字寫的同一文章,由于是所有元素消息量的加和,那么中文文章應用的漢字就比英文文章使用的字母要少。所以漢字印刷的文章要比其他應用總體數量少的字母印刷的文章要短。即使一個漢字占用兩個字母的空間,漢字印刷的文章也要比英文字母印刷的用紙少。
實際上每個字母和每個漢字在文章中出現的次數并不平均,因此實際數值并不如同上述,但上述計算是一個總體概念。使用書寫單元越多的文字,每個單元所包含的訊息量越大。
I(A)度量事件A發生所提供的信息量,稱之為事件A的自信息,P(A)為事件A發生的概率。如果一個隨機試驗有N個可能的結果或一個隨機消息有N個可能值,若它們出現的概率分別為p1,p2,…,pN,則這些事件的自信息的和:[H=-SUM(pi*log(pi)),i=1,2…N]稱為熵。
熵的公式
熵H(X)=-Σx∈Ωp(x)logxp(x)
– 假設PX(x)是隨機變量X的分布
– 基本輸出字母表是Ω
– 單位:bits
? 熵是X的平均信息量,是自信息量的期望
E(X)=Σx∈Ω p(x) x
I(X)=-logp(x),取2為底,I(X)=-log2p(x)
E(I(X)=E(-log2p(x))= Σx∈Ω p(x)(-log2p(x)) = H(X)
H(X)=H(p)=Hp(X)=HX(p)=H(pX)
熵的例子
? 擲均勻硬幣,Ω={H,T}
p(H)=.5, p(T)=.5
H(p)=-0.5log20.5 (-0.5log20.5)=1
? 32面的均勻股子,擲股子
H(p)=-32((1/32)log2(1/32))=5
? 事實上,擲的次數21=2, 25=32(perplexity)
? 擲不均勻硬幣
?p(H)=0.2, p(T)=0.8, H(p)=0.722(不確定性更大)
p(H)=0.01, p(T)=0.99, H(p)=0.081
什么時候H(p)=0?
– 試驗結果事先已經知道
– 即:?x∈Ω, p(x)=1; ?y∈Ω, p(y)=0 if y≠x
? 熵有沒有上限?
– 沒有一般的上限
– 對于|Ω|=n,H(p)≤-log2n
– 均衡分布的熵是最大的
??等概率分布
– 2個輸出的等概率分布,H(p)=1bit
– 32個輸出的等概率分布,H(p)=5bits
– 43億輸出的等概率分布,H(p)=32bits
? 非等概率分布
– 32個輸出,2個0.5,其余為0,H(p)=1bit
– 怎樣比較具有不同數量輸出的“熵”?困惑度(perplexity)
困惑度(perplexity)即混亂度
G(p)=2的H(p)次方,在NLP中,如果詞表中的詞具有統一的分布概率,則最難預測,熵最大,混亂度最高
反之,分布越不均衡,熵越小,混亂度越小
條件熵
給定隨機變量X的情況下,隨機變量Y的條件熵定義為:
H(Y|X)=Σx∈Ωp(x)H(Y|X=x)
???= Σx∈Ωp(x)(-Σ y∈Ψp(y|x)log2p(y|x))
???=-Σx∈Ω Σ y∈Ψp(y|x)p(x)log2p(y|x)
???= -Σx∈Ω Σ y∈Ψp(x,y)log2p(y|x)
p(x,y)是加權,權值是沒有條件的
聯合熵(joint entropy)
如果X, Y 是一對離散型隨機變量X, Y ~ p(x, y),X, Y 的聯合熵H(X, Y) 為:
(X,Y)被視為一個事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
聯合熵實際上就是描述一對隨機變量平均所需要的信息量
聯合熵(joint entropy)
如果X, Y 是一對離散型隨機變量X, Y ~ p(x, y),X, Y 的聯合熵H(X, Y) 為:
(X,Y)被視為一個事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
聯合熵實際上就是描述一對隨機變量平均所需要的信息量
熵的性質
熵是非負的
H(X)≥0
Chain Rule
H(X,Y)=H(Y|X) H(X)
H(X,Y)=H(X|Y) H(Y)
H(X,Y)≤H(X) H(Y),X和Y獨立時相等
H(Y|X)≤H(Y),條件熵比熵小
互信息(Mutual Information)
如果( X, Y ) ~ p(x, y),X, Y 之間的互信息I(X; Y) 為:I (X; Y) = H(X) –H( X | Y )
推導為:I(x,y)=log2p(x,y)/(p(x)p(y))
互信息I (X; Y) 是在知道了Y 的值后X 的不確定性的減少量。即,Y 的值透露了多少關于X 的信息量。
? 比如計算兩個詞的搭配
I(偉大,祖國)=log2p(偉大,祖國)/(p(偉大)p(祖國))
? 此值較高,說明“偉大”和“祖國”是一個比較強的搭配
I(的,祖國)=log2p(的,祖國)/(p(的)p(祖國))
? 此值較低,因為p(的)太高,“的”和“祖國”不是一個穩定的搭配
互信息性質
I(x,y)>>0:x和y關聯強度大
I(x,y)=0:x和y無關
I(x,y)<<0:x和y具有互補的分布
由于H(X, X) = 0, 所以,
H(X) = H(X) –H(X|X) = I(X; X)
這一方面說明了為什么熵又稱自信息,另一方面說明了兩個完全相互依賴的變量之間的互信息并不是一個常量,而是取決于它們的熵。
總結
- 上一篇: vim常用替换表达式
- 下一篇: shell 传参数