短文本分类
来源:互联网 发布:对称加密算法 java 编辑:程序博客网 时间:2024/04/28 10:28
给text grocery 做个广告。
短文本分类因为特征少,无法得到好的效果。另外,文本短提供的信息有限,需要的样本大,无法通过人工标注来做(减少人工)。
如何扩展特征?
长文本分类方法。84%
尝试用Word2vec对tfidf大的词汇进行扩展。 不可用。
尝试用lda来扩展特征。 86%. ------ 因为lda扩展的特征有限。一般一条微博只能扩到1到2个特征。
尝试使用bigram来做特征扩展,效果最好。基于libshorttext。 95% 以上。 ------ 就是textgrocery。
如何获取训练文本?
1.通过纯度较高的微博分类账户作为初始训练数据。
2.根据已有数据建立高招回分类器来扩展正例。
3.对已有正例的特征做皮尔逊相关系数排序。用排名较高的词汇进行solr搜索来获取正例。
更好的拟合现有数据? 将训练集的badcase减少
对badcase中svm排序最高来扩展正例。计算badcase的相关系数,特征使用词+bigram。 选取正例加入到训练集。
转至:https://segmentfault.com/a/1190000003939497
阅读全文
0 0
- 短文本分类
- 短文本分类
- 短文本分类记录
- TextGrocery短文本分类使用
- 短文本分类工具 TextGrocery
- 短文本/Query分类算法特征选择
- 短文本/Query分类算法特征选择
- 短文本分类遇到的bug
- 基于CNN的短文本分类实验 PPT
- 常用消息短文本
- 短文本情感分析
- 最长&最短文本
- 短文本情感分析
- 短文本分类或lda的分析(ZZ)(转载pennyliang (pennyliang),)
- 深度学习Attention机制在短文本分类上的应用——qjzcy的博客
- 接上篇,CNN在短文本分类中的应用遇到的一些问题/GPU/cuda/tensorflow
- 短文本聚类方法
- 1195 最长&最短文本
- 测试人员的绩效管理问题
- Nginx配置文件详细说明
- Java基础语法(五)—位运算符
- 全面了解 Nginx 主要应用场景
- 算法导论 练习题 16.1-4
- 短文本分类
- 缓存I/O和直接I/O
- xshell密钥远程登录管理服务器
- P1006 传纸条(dp)
- LVOOP(一)、如何创建类、属性和方法
- 从1到n整数中1出现的次数:O(logn)算法
- linux下mysql忘记root密码解决方法
- IDEA下调试jar文件
- 高通android开源代码下载