微博情感分析的表情符号平滑语言模型(A11, AAAI2012)
来源:互联网 发布:森马集团数据 编辑:程序博客网 时间:2024/06/03 13:48
Emoticon Smoothed Language Models for Twitter Sentiment Analysis 微博情感分析的表情符号平滑语言模型(A11, AAAI2012)
通常,对于完全监督模型,由于耗人力和耗时间只能得到有限的训练数据,对于带噪声标签的模型,虽然很容易获得大量训练数据,但是由于标签的噪声很难得到满意的性能。最好的策略是利用手工标记的数据和噪声数据来训练。文章中,提出一个新的表情符号平滑语言模型(ESLAM)。基本思想是基于手工标记的数据训练语言模型,然后用噪声表情符号来平滑。
前人工作发现对于长文本,SVM比MNB(multinomial naive Bayes)性能更好,短文本反之。但是使用的都是完全监督数据。也有用弱监督训练数据的工作,由于标签的噪声,正确率不令人满意。考虑完全监督和弱监督方法的缺点,最好的策略是利用两种数据来训练。为了无缝集成两种数据于一个模型,提出ESLAM,它的主要贡献:有能力处理拼错的词,俚语,情态词,缩写和无法预料的词;也可以用于主客观分类;从微博API直接评估词概率,不需要下载任何微博,省时省空间。
情感分析的语言模型
Twitter情感分析(TSA)实际上是一个分类问题。为了对TSA采用语言模型(LM),连结所有同一类的微博形成一个综合文档。在测试阶段,每条文本微博看成一个查询,使用概率排名类。有最高概率的类选为文本微博的标签。使用
表情符号模型
提出了非常高效的方法从微博搜索API评估表情符号语言模型
极性分类
为了得到
令
对于消极类的语言模型,假定消极微博是包含“: (”的微博,
主客观分类
主客观分类的两类是主观和客观。假定主观微博是带“: )”或”: (“的微博。对于主观类,建立查询“
ESLAM
从手工标记的数据评估
实验
- 数据集
公开可用的Sanders语料用于评估。它由5513个手动标记的微博组成。通过去停用词,移除转帖和重复帖等预处理数据。 - 评估机制和度量
根据参考文献,采用正确率和F值作为评估度量。 - 表情符号的效果
比较ESLAM方法和完全监督语言模型(LM)。对于极性分类,手工标记的数据增加,两种方法的性能增长。在少量手工标记数据的情况下,ESLAM比完全监督LM好,说明噪声数据有一些有用的信息。对于主客观分类,结果相似,基于url链接的方法对于发现客观微博是有效的。 - 手工标记数据的效果
比较ESLAM和弱监督LM来证实手工标记的数据是否提供分类的有效信息。对于极性分类和主客观分类,结果相似,随着手工标记数据的增长,它们之间的性能差别越来越大,说明只使用噪声标记数据训练是不够的。 - 参数的敏感性
(1)式中参数α 决定手工标记信息和噪声标记信息的贡献,设置α 的不同值,512条标记训练微博的ESLAM比128条的需要更大的α 值来获得最佳性能。
- 微博情感分析的表情符号平滑语言模型(A11, AAAI2012)
- Moodlens:一个基于表情符号的中文微博情感分析系统(A3, SIGKDD2012)
- 图像情感分析(3):基于卷积神经网络的图像情感分析模型Python实现
- 图片情感分析(2):图像情感分析模型
- 使用context信息的情感分析模型
- 两个基于神经网络的情感分析模型
- 使用context信息的情感分析模型
- 跨语言情感分析(中/英)
- 基于改进依赖分析的微博情感倾向性分析
- 融入了外部Linguistically信息的情感分析模型
- 融入了外部Linguistically信息的情感分析模型
- 输入法中统计语言模型的建立以及平滑
- 利用社会关系进行微博情感分析(A10, WSDM2013)
- 语言模型srilm(三) 折扣平滑算法
- 情感分析的新方法
- [情感分析的新方法]
- 微博文本情感分析-开篇
- 文本情感分类---搭建LSTM(深度学习模型)做文本情感分类的代码
- 【Linux】VMware中Redhat9下安装VMTools
- Shell特殊变量:Shell $0, $#, $*, $@, $?, $$和命令行参数 http://c.biancheng.net/cpp/view/2739.html
- AsyncTask的参数介绍
- s3c2440 LCD
- java框架篇---spring aop两种配置方式
- 微博情感分析的表情符号平滑语言模型(A11, AAAI2012)
- Spring 3 MVC hello world example
- java SE复习笔记37
- 待解决
- 为coreseek添加mmseg分词
- PHP 使用TCPDF插件生成pdf以及pdf的中文处理
- spring与jdbc结合的方式
- [HDU 1698]Just a Hook[线段树区间更新]
- 线程的分离状态(detached state)