数据结构 第四章 哈夫曼编码与ASCII编码的比较(设想)

来源:互联网 发布:网络it培训 编辑:程序博客网 时间:2024/06/05 10:27

一、随机选择10万字母左右的文章,文章来自新闻、小说、字幕……代表日常用到的英语。

二、将这些文章统一保存到txt文本文档内。

三、编程对文本进行预处理,去掉换行符、空格和其他标点符号,将全部大写转换为小写。

四、编程统计实际总字母数,以及26个小写字母的频数。

五、用统计得到的数据制成字频表。

六、使用哈夫曼树对字母进行哈夫曼编码。以字频为权值。

七、从处理后的文本中随机选一千字,用哈夫曼编码回代字母。

八、计算回代后的空间总长。

九、沿用ASCII码的编码思想,对a~z的编码进行缩减,用0(0 0000)~25(1 1001)的二进制数分别作为它们的编码。

十、用这些编码重复第七步和第八步。

比较两种编码占用的空间大小,得出结论。

 

临时的想法,应该会有纰漏和不妥。先做记录,有空再实现。

0 0
原创粉丝点击