KL距离的应用一(转)
来源:互联网 发布:ca检测不到网络 编辑:程序博客网 时间:2024/05/16 06:13
利用信息论的方法可以进行一些简单的自然语言处理
比如利用相对熵进行分类或者是利用相对熵来衡量两个随机分布的差距,当两个随机分布相同时,其相对熵为0.当两个随机分布的差别增加时,器相对熵也增加。我们下面的实验是为了横量概率分布的差异。
试验方法、要求和材料
要求:
1.任意摘录一段文字,统计这段文字中所有字符的相对频率。假设这些相对频率就是这些字符的概率(即用相对频率代替概率);
2.另取一段文字,按同样方法计算字符分布概率;
3.计算两段文字中字符分布的KL距离;
4.举例说明(任意找两个分布p和q),KL距离是不对称的,即D(p//q)!=D(q//p);
方法:
D(p//q)=sum(p(x)*log(p(x)/q(x)))。其中p(x)和q(x)为两个概率分布
约定 0*log(0/q(x))=0;p(x)*log(p(x)/0)=infinity;
实验材料:
从凤凰新闻网,提取的两篇新闻名字为:
《《小团圆》究竟泄了张爱玲什么“秘密”?》
《《小团圆》:张爱玲的一个梦》
《1945年毛zedong和蒋介石在重庆谈判前的秘密情报战》
三篇新闻的编码均为utf-8,大小都是11k左右,都为多页新闻。
三篇新闻的内容如下
从上面可以很显然的看出:第一篇新闻和第二篇新闻都是讲张爱玲的著作《小团圆》的,第三篇新闻内容是国共内战的,显然是第一篇新闻和第二篇新闻之间的概率分布相似度大,那么实验结果是不是这样呢?让我们擦亮眼睛,拭目以待吧。
0 0
- KL距离的应用一(转)
- KL距离的计算与含义(转)
- KL距离(二)(转)
- KL距离(三)(转)
- 【转】KL距离
- (转载)KL距离
- KL距离(相对熵)
- KL距离(相对熵)
- 关于相对熵(KL距离)的理解
- 相对熵(KL距离)的java实现
- KL距离
- KL距离
- KL距离
- KL距离
- KL距离
- KL距离
- KL距离
- KL距离
- 验证atexit
- android---(菜单)
- 一个数组中只有0,1,2三个元素,进行排序,要求时间复杂度为O(n)
- Android学习笔记(十一)BroadcastReceiver动态注册、注销示例
- 关于sqlite3 not found
- KL距离的应用一(转)
- mongoDB高级篇①】聚集运算之group,aggregate
- DLX精确覆盖 hdu4069 Squiggly Sudoku
- 读写锁
- stack栈的基本操作
- lintcode做题总结, Oct 05
- Java/C++之 public、protected、private ; virtual & abstract
- PS之1.光与色的关系(1)
- Swift 与众不同的地方