NLP 分类问题的讨论
来源:互联网 发布:海康摄像头网络不可达 编辑:程序博客网 时间:2024/03/29 00:47
不同形态的文本
- 短文本
商品评论,电影短评, 微博等内容, 句子的长度在50个单词以内。
因为句子短, 所以对这些 word 的 vector 取平均 还能保留一些局部信息, 论文中普遍这么用. - 长文本
长篇文本, 1000单词级别.
因为句子长, 所以对各 word 的 vector 取平均就没什么意思了, 不然有了 word2vec 之后, 就没有必要再搞一个 doc2vec 出来了. - 多元素内容
像电商的导购文章, 有文本,图片, 短视频, 商品信息等。
我们希望综合语义与其他非语义信息, 作为融合特征用于建模.
文本分类相关手段对比
- 词袋模型
通过单词的 one-hot 得到文本的向量表示, 高维又稀疏, 忽略词语之间的关联性. - Text CNN
需要固定文本长度n,如n=50, 取50个单词, 过短的进行zero-padding, 长的需要截断。
所以, 长文本因为内容截断, 会有信息损失. - FastText
不需要固定文本长度.
输出为单词的vector时, 无法有效表示长文本。
输出为类别时, 可以满足需求. 但无法融合文章中的非文本信息. - Word2Vec
给一个语料库, 训练后得到每个单词的 vector 表示, 但用这些 word 去表示长文本还是很勉强. - Doc2Vec
无监督的学习, 得到的doc的vector更通用.
但阿里云PAI的Doc2Vec组件没有预测功能. 对于未登录文本, 就无能为力了. - 多网络融合
第一个网络用于处理文章的语义, 第二个处理传统特征
参考
- Semi-supervised Convolutional Neural Networks for Text Categorization via Region Embedding
阅读全文
0 0
- NLP 分类问题的讨论
- LINGO的NLP问题
- [nlp]意图分类是怎么实现的
- 基于机器学习的NLP情感分析(二)---- 分类问题
- 继上一次GAN应用于NLP的讨论的后续讨论
- NLP分类问题中,使用半监督或无监督的手段来减少标注的任务
- 分类讨论
- stanford nlp库提供的nlp之外的分类、语义图、图最短路径功能
- 行为识别笔记:关于行为检测/识别问题的分类及研究进展的讨论
- CNN在NLP领域的实践(1) 文本分类
- 【NLP】使用朴素贝叶斯进行文本的分类
- 卷积神经网络在NLP领域的实践:文本分类[转]
- NOJ——1665夜神的思考(YY+组合问题+分类讨论)
- [技术讨论]讨论问题的两个基本原则
- 运用TensorFlow处理简单的NLP问题
- 运用TensorFlow处理简单的NLP问题
- 运用TensorFlow处理简单的NLP问题
- python 调用 Stanford NLP 的问题
- nybatis generatorConfig 找不到路径
- Mysql索引
- 一完整的HTTP事务是怎样的过程
- ubuntu16.04上如何使用svn创建新的仓库
- android studio2.3.3 中 shareSDK配置和分享
- NLP 分类问题的讨论
- 【HTTP】Fiddler(三)- Fiddler命令行和HTTP断点调试
- Impala负载均衡方案
- 一周工作所用的日常 Git 命令
- iOS开发——从一道题看Delegate
- 西瓜书《机器学习》阅读笔记4——Chapter2_代价曲线
- 七牛云私有空间指定目录大量文件压缩示例
- library
- 深入理解socket网络编程