第六周__利用哈夫曼编码英文字母表

来源:互联网 发布:悬疑电视剧 知乎 编辑:程序博客网 时间:2024/04/29 23:19

 

 a、

Huffman树如下图所示:

 

Huffman编码如下:

空格:111e:010t:1100a:1010o:1001i:0111n:0110s:0011h:0001r:0000d:1011l:10110c:00101u:00100m:110111w:110101f:110100g:100011y:100010p:100001b:100000v:1101101k:11011001j:1101100010x:1101100011q:1101100000z:1101100001

b、(3*2+4*8+5*4+6*7+7+8+10*4)/27≈5.74,即每个字母的编码平均需要6位。

c、熵约为5.74,结果肯定比熵要大,因为在计算熵的时候允许有小数个比特,而实际上每个字符的编码长度都必需为整数。

d、我不认为这就是英文文本压缩的下限。除了字母及其出现的频率,还可以重点考虑单词的前缀,后缀,或者整个单词。

 

0 0
原创粉丝点击