LDA的评价标准
来源:互联网 发布:js中==和===的区别 编辑:程序博客网 时间:2024/04/29 06:28
最近半个月一直纠结与LDA中,拔也拔不出来,有很多的东西我自己是不太理解的,现在还是重新理一下思路,然后再重新来做吧。
对于评价聚类算法的好坏的评价指标:
第一是利用有分类标签的测试数据集,然后判断聚类的结果与真实的结果之间的差距。
第二是利用无分类标签的测试数据集,用训练出来的模型来跑测试数据集,然后计算在测试数据集上,所有的token似然值几何平均数的倒数,也即perplexity指标,这个指标可以直观理解为用于生成测试数据集的词表大小的期望值。
熵,perplexity是一种信息理论的测量方法,x的perplexity是基于x的熵的能量来定义的。对于一个模型而言,perplexity越小,说明模型越好。具体在wiki上有三种定义方式,参考的链接如下:
http://blog.csdn.net/pipisorry/article/details/42460023
对于LDA主题模型中的perplexity,只是一个粗略的评价标准,用于在语料库中得到合数数目的主题。
其中,M是测试语料库中的文本的数量,Nd是第d篇文本的大小(即单词数),P(Wd)代表文本的概率。
文本的概率的计算方法:由词袋模型可知,一篇文本的概率为其所有词的的概率的成绩,而每个词的概率由全概率公式(主题的全概率公式得到)。
LDA模型的perplexity就是exp^{ - (∑log(p(w))) / (N) },∑log(p(w))是对所有单词取log(直接相乘一般都转化成指数和对数的计算形式),N的测试集的单词数量(不排重)
举例说明,假设我们测试语料库中由m个句子,s1,s2,s3,s4…sm,可以通过取log的方式将乘法转变为加法。
此时的值越大说明效果越好。
将其转化为指数的方式,此时的perplexity越小越好。
- LDA的评价标准
- 人才的评价标准
- 数据仓库成功的评价标准
- 数据仓库成功的评价标准
- 分类算法的评价标准
- 评价一个框架好坏与否的标准:
- 我对一款编辑器的评价标准
- 排序算法的重要评价标准
- 关于视频质量的评价标准PSNR
- 前端数据展示的评价标准
- 视频 应用 的部分评价标准。
- 数据挖掘的一些评价标准
- 评价机器学习系统的标准
- 衡量模型泛化能力的评价标准
- 计算机视觉常用的评价标准
- 检测与姿态估计的评价标准
- 相关系数评价标准的相关知识
- 软件质量评价标准
- 常用正则表达式大全,手机、电话、邮箱、身份证(最严格的验证)、IP地址、网址、日期等,一般前台js验证
- cordova build android 报错Execution failed for task ':mergeDebugResources'.某些输入文件使用或覆盖了过时的API
- App 接外包
- 第一篇博客
- apigen生成接口文档并同步到服务器
- LDA的评价标准
- RTAI API---task function
- iOS微信登录快速集成步骤
- 第八周——建立顺序串的算法库
- 第8周项目2- 对称矩阵压缩存储的实现与应用(2)
- 框架类---springBoot---tomcat启动并支持跳转JSP文件
- VBA中被Find的对象只能是值,不能是引用
- 第八周项目三(1)—顺序串算法之将字符串S中所有值为c1的字符换成值为c2的字符
- std bind相关