看到的一些文本分类的一些问题(评论)
来源:互联网 发布:java 运行时获取注解 编辑:程序博客网 时间:2024/05/21 17:21
1. 你好 请问textcnn做长文本的话 比如某些类别平均长度已经是1400了,最长上万字,这时根据最长的做padding,内存占用会爆炸。。。另外是 长度非常不均匀,比如百分之一的长度几乎接近0(实际是因为里面全是图片或者视频),这种cnn怎么处理呢
2. 你好,路过看到你的问题,我在某公司实习的时候,50w新闻语料分19类,长文(实际长短非常不均衡,textcnn论文语料应该是句子),然后textcnn random初始化,没有用pretrain的vector,然后效果一般,fasttext当时输入是文本加作者信息 f1飘过0.9 ,不输入作者信息0.86-0.88 传统ml最后搞到0.94.... 上线之后效果比线下更好点,因为人工评价的时候,某些比如放在两个类别都可以的会认为分到哪个都是对的。其他几个问题如果有答案求告知
3. 你好,想请教一下传统机器学习是用什么模型做的?用textcnn的话长短不均衡该怎么处理比较好?我现在做的项目分类类别有上万个,然后一篇文章还可以对应多个类别,完全不知道该怎么处理比较好~
回答、1、长文的话 如果是那种比如军事政治体育这种分类, tf-idf一般能有很好的结果 你看几篇文本分类的DL的论文他们都会对比传统的方法 那些方法你可以试试 2、你的是multilabel classification还是一篇文章只有一个label呢,如果是multilabel classification的话 最近知乎看山杯的竞赛,可以参考下 3、TextCNN长短不均衡 只能统计一下分布,比如90%文本都是<=100个词 你就按照100截断。 5、用fasttext跑个结果当baseline把 这玩意很快而且效果一般还是能看的。6 、DL的话 建议你试试这篇:《 Hierarchical Attention Networks for Document Classification》 当时我们试的这篇效果挺好的。
from: https://zhuanlan.zhihu.com/p/25928551
- 看到的一些文本分类的一些问题(评论)
- 一些看到的小问题,记载下。
- 看到的一些链接
- 初学java的我看到别人的一些建议,有补充的可以加以评论,谢谢
- 看到的一些笔试题(一)。
- kodak数码相机的一些评论
- 理解矩阵 的一些评论
- 昨天看到的一些sentences
- 今天看到的一些事情
- 微博上看到的一些东西
- 记录看到的一些jquery效率上的问题
- 一些关于中文乱码问题的一些解决方案分类
- 利用xml来存储一些像分类,文章评论之类的小数据的通用方法
- 无意中看到一些机器学习的问题,顺便解释下(一)
- 网上看到的一些好的资源
- 看到的一些好的结论
- 看到的一些关于优化的建议
- 深度学习:基于 Gensim 的 Yelp 评论文本分类实例
- 运维行业的求职渠道有哪些?
- 图像特效之毛玻璃(扩散)
- sumit (Mobius 分块)
- Java几种常用排序算法
- 出门问问 电话面试
- 看到的一些文本分类的一些问题(评论)
- 阿里云Maven仓库地址
- python3.5.2安装tensorflow
- [Excel]如何删除加载项内自定义工具菜单
- 学习中应该收集的开发利器
- BZOJ 1537: [POI2005]Aut- The Bus 树状数组
- 图形视图框架中自定义QGraphicsItem
- unity_NGUI系统学习(四)_Atlas图集的创建和使用_Button触发状态还可以用图片做背景效果设定
- 线性回归:最小二乘法