<數學之美>讀書心得(一)信息理論中熵-的初淺理解
来源:互联网 发布:淘宝差评报复买家 编辑:程序博客网 时间:2024/05/21 07:51
- 信息的度量與他的不確定性相關
一條信息的信息量和它的不確定性有著直接關係。
當我們需要搞清楚一件不確定的事情時,我們需要更大量的信息來了解事情的真相;相反,如果我們需要
我們已經理解的事,那僅需少量資訊就能理解。
==>可以把一件信息的信息量(真正有用的資訊)等於不確定性的多寡。
舉例一:
世足賽中,我錯過了觀看球賽的時間但我想知道最後是誰得到了冠軍,此時有觀看過球賽之某人可以讓我問答(信息)
我每問答一次此人收我一塊錢,已知共有32支球隊,如果用較有效率的做法,我們可以用以下問法"冠暈球隊在1-16號中嗎?"
"冠軍球隊在1-8號中嗎?"、"冠軍球隊在9-16號中嗎?"如此反覆詢問,如此一來便可以使用五塊錢獲得該次比賽的誰是冠軍資訊(信息量)。
此資訊共值五元。
而在信息理論中,香農所用的是比特(bit)而不是錢。
但有些球隊依過去歷史紀錄贏得比賽的機率比較大,與其使用簡單二分法,
我們可以一次將那些贏的機率較小的球隊綜合起來與其比較,如此反覆,有很高的機率可以在小於五次的詢問
次數的道誰是冠軍的資訊。
當每支球隊的冠可能性不相等時,香農指出其準確信息量應當是
H=-(p1*logp2+p2+p2*logp2+...+p32*logp32);
其中log是以二為底,Pn為球隊n贏得球賽的機率,數學證明可導出當我們擁有球隊贏得球賽的概率時
該公式的H必小於logn(在此範例當中為5),比二分法有效。
對任意隨機變量X而言(比如得冠軍的球隊),它的熵定義如下:
H(X)=-Σx∈X P(x)logP(x);
舉例(二)
有了熵這個概念,我們可以試算50萬字中文書有多少信息量,已知常用漢字約略7000,
假如每字出現為等機率,那麼需要大概13bit才能表達一漢字;但實際上每漢字出線機率不均等
前10%的漢字站常用文本95%以上,因此即使不考慮上下文相關性,而只考慮每漢字獨立出現的概率
每漢字的信息熵僅有8-9bit,如果考慮上下文相關性,僅有5bit。
冗餘度Redundancy
透過信息及所含真正資訊的差異。
如果一本書重複的內容多,它的信息量就小,冗餘度就大。
- <數學之美>讀書心得(一)信息理論中熵-的初淺理解
- 《编程之美——微软技术面试心得》一摞烙饼的排序初体验
- 编程之美读书心得(一)
- 信息之美(发现信息的美,它将枯燥、抽象的信息变成通俗、有趣、便于理解的语言)(china-pub首发)
- 《编程之美——微软技术面试心得》一摞烧饼的排序 (不会做,看不懂)
- 《编程之美——微软技术面试心得》的C#实现---电梯调度问题解法一
- 编程之美阅读心得
- 编程之美读书心得
- 我的數學之美(一)——RANSAC算法詳解
- 数学之美感悟--信息的度量和作用
- 读书笔记 --《数学之美》_信息的度量和作用
- 数学之美——信息的度量
- 编程之美读书心得(二)
- 【编程之美】微软技面心得
- 2016 BOP 编程之美复赛心得
- 【编程之美】中的美中不足,谈谈我的理解
- 决策树之信息熵的理解
- 数字证书的理解心得
- Slf4j-api-1.7.21.jar包目录结构
- nefu 23 杨辉三角
- 会场安排问题
- 杭电-畅通公路
- 向量的几何解释笔记(点积叉积矩阵)
- <數學之美>讀書心得(一)信息理論中熵-的初淺理解
- nginx: [error] OpenEvent("Global\ngx_reload_23212") failed (2: The system cannot find the file spec
- Android OpenGL 纹理绘制图像---总结
- nefu 25 计算高手
- CSS揭秘--笔记--滚动提示
- AngularJS 0005:作用域
- Java序列化机制和原理
- 沉浸式状态栏
- CCF 201509-4 高速公路(强连通分量缩点)