<數學之美>讀書心得(一)信息理論中熵-的初淺理解

来源:互联网 发布:淘宝差评报复买家 编辑:程序博客网 时间:2024/05/21 07:51

  • 信息的度量與他的不確定性相關

一條信息的信息量和它的不確定性有著直接關係。

當我們需要搞清楚一件不確定的事情時,我們需要更大量的信息來了解事情的真相;相反,如果我們需要

我們已經理解的事,那僅需少量資訊就能理解。

==>可以把一件信息的信息量(真正有用的資訊)等於不確定性的多寡。


舉例一:

世足賽中,我錯過了觀看球賽的時間但我想知道最後是誰得到了冠軍,此時有觀看過球賽之某人可以讓我問答(信息)

我每問答一次此人收我一塊錢,已知共有32支球隊,如果用較有效率的做法,我們可以用以下問法"冠暈球隊在1-16號中嗎?"

"冠軍球隊在1-8號中嗎?"、"冠軍球隊在9-16號中嗎?"如此反覆詢問,如此一來便可以使用五塊錢獲得該次比賽的誰是冠軍資訊(信息量)。

此資訊共值五元。

        而在信息理論中,香農所用的是比特(bit)而不是錢。

       


但有些球隊依過去歷史紀錄贏得比賽的機率比較大,與其使用簡單二分法,

         我們可以一次將那些贏的機率較小的球隊綜合起來與其比較,如此反覆,有很高的機率可以在小於五次的詢問

        次數的道誰是冠軍的資訊。

   當每支球隊的冠可能性不相等時,香農指出其準確信息量應當是

H=-(p1*logp2+p2+p2*logp2+...+p32*logp32);

其中log是以二為底,Pn為球隊n贏得球賽的機率,數學證明可導出當我們擁有球隊贏得球賽的概率時

該公式的H必小於logn(在此範例當中為5),比二分法有效。


對任意隨機變量X而言(比如得冠軍的球隊),它的熵定義如下:

H(X)=-Σx∈X P(x)logP(x);


舉例(二)

有了熵這個概念,我們可以試算50萬字中文書有多少信息量,已知常用漢字約略7000,

假如每字出現為等機率,那麼需要大概13bit才能表達一漢字;但實際上每漢字出線機率不均等

  前10%的漢字站常用文本95%以上,因此即使不考慮上下文相關性,而只考慮每漢字獨立出現的概率

每漢字的信息熵僅有8-9bit,如果考慮上下文相關性,僅有5bit。



冗餘度Redundancy

透過信息及所含真正資訊的差異。

  如果一本書重複的內容多,它的信息量就小,冗餘度就大。










0 0