LDA相关改进
来源:互联网 发布:淘宝全屏首页怎么上传 编辑:程序博客网 时间:2024/05/22 21:55
在原始基础上,做了如下改进:
- tf-idf本来是自己根据公式编的算法,现在改成sklearn自带的tf-idf,但这个出来的效果是每篇文章根据得分从高到低排列,LDA准备tokens时,应该是所有文章的关键词排序;textrank用的是textrank4zh
- 在使用LDA之前,每篇文章的关键词利用tf-idf及textrank打分的方式,由高到低排列,剔除停用词及不显示主题意义的词性,由此产生的tokens文件,作为LDA的输入文件,从效果上来说比以往有较大改进,如篮球,男篮,女篮,羽毛球,足球有稳定显示
- 提供一个参考版本,LDA仅使用聚类功能,将文章单独使用tf-idf及textrank的方式,出来的关键词很不一样
- 分词库更新,将HanNLP词库作为自定义词典,分词更准确。
- 将一些不能体现主题意义(基于common sense)的词列入停用词,这样的话,感觉停用词需要积累,越后期主题关键词越优质。
- 手动调整了topic的数量,基本是以主题间的区分度明显同时能涵盖更多的新闻为标准,大部分都增多了,但有一些channel的话题比较集中设置的数量相对少一些,如cctv11
- 各主题关键词数量增加为30个
附代码:https://github.com/callmeivy/topic_tags_btv2/tree/master/before
阅读全文
0 0
- LDA相关改进
- LDA模型改进
- LDA相关论文汇总
- LDA相关论文汇总
- LDA相关论文汇总
- 一种基于邻接图模型的改进LDA算法
- 主题模型TopicModel:LDA的缺陷和改进
- LSA,pLSI,LDA相关的资料整理
- LDA的必读文章和相关代码
- LDA主题模型相关阅读资料
- LDA
- LDA
- LDA
- LDA
- LDA
- LDA
- LDA
- LDA
- (一)java基础篇笔记库(11)
- #算法之路之征服上海交大的oj-高精度加法
- BZOJ3675 [Apio2014]序列分割 【斜率优化dp】
- 35-关于日志Log输出插件Log4Net的总结
- POJ 1251 Jungle Roads(最小生成树简单题)
- LDA相关改进
- 哪款播放器好
- 算法入门经典第二版 3-8 Repeating Decimals
- weMosD1--12864 OLED/I2C显示(二)加上DHT11
- TRQ-K3报表需求实现过程记录
- ArrayList集合
- 作业
- 从小到大排序三个数
- C语言字符串处理函数