<數學之美>讀書心得(一)信息理論中熵-的初淺理解

来源：互联网发布：淘宝差评报复买家编辑：程序博客网时间：2024/05/21 07:51

一條信息的信息量和它的不確定性有著直接關係。

當我們需要搞清楚一件不確定的事情時，我們需要更大量的信息來了解事情的真相；相反，如果我們需要

我們已經理解的事，那僅需少量資訊就能理解。

==>可以把一件信息的信息量(真正有用的資訊)等於不確定性的多寡。

舉例一:

世足賽中，我錯過了觀看球賽的時間但我想知道最後是誰得到了冠軍，此時有觀看過球賽之某人可以讓我問答(信息)

我每問答一次此人收我一塊錢，已知共有32支球隊，如果用較有效率的做法，我們可以用以下問法"冠暈球隊在1-16號中嗎?"

"冠軍球隊在1-8號中嗎?"、"冠軍球隊在9-16號中嗎?"如此反覆詢問，如此一來便可以使用五塊錢獲得該次比賽的誰是冠軍資訊(信息量)。

此資訊共值五元。

而在信息理論中，香農所用的是比特(bit)而不是錢。

但有些球隊依過去歷史紀錄贏得比賽的機率比較大，與其使用簡單二分法，

我們可以一次將那些贏的機率較小的球隊綜合起來與其比較，如此反覆，有很高的機率可以在小於五次的詢問

次數的道誰是冠軍的資訊。

當每支球隊的冠可能性不相等時，香農指出其準確信息量應當是

H=-(p1*logp2+p2+p2*logp2+...+p32*logp32);

其中log是以二為底,Pn為球隊n贏得球賽的機率，數學證明可導出當我們擁有球隊贏得球賽的概率時

該公式的H必小於logn(在此範例當中為5)，比二分法有效。

對任意隨機變量X而言(比如得冠軍的球隊)，它的熵定義如下:

H(X)=-Σx∈X P(x)logP(x);

舉例(二)

有了熵這個概念，我們可以試算50萬字中文書有多少信息量，已知常用漢字約略7000，

假如每字出現為等機率，那麼需要大概13bit才能表達一漢字；但實際上每漢字出線機率不均等

前10%的漢字站常用文本95%以上，因此即使不考慮上下文相關性，而只考慮每漢字獨立出現的概率

每漢字的信息熵僅有8-9bit，如果考慮上下文相關性，僅有5bit。

冗餘度Redundancy

透過信息及所含真正資訊的差異。

如果一本書重複的內容多，它的信息量就小，冗餘度就大。

0 0