Word representations: A simple and general method for semi-supervised learning
来源:互联网 发布:控制网络连接管理 编辑:程序博客网 时间:2024/06/06 14:28
题目: Word representations: A simple and general method for semi-supervised learning
作者: Joseph Turian, Lev Ratinov, Yoshua Bengio
单位: Universite de Montreal
出版: ACL
解决的问题
利用无监督的word representation来解决有监督NLP系统的data sparsity问题,评估了几种词表示对命名实体识别(named entity recognition, NER)和分块(chunking)问题的效果。
word representation
每个词对应的数学对象,通常是一个向量。每个维度的值与一个特征联系起来,并且可能有语法或语义上的解释,我们将每一维称为词特征。
data sparsity
对于在训练数据中出现很少的词,它们对应的模型参数几乎不会被评估。并且在测试过程中,模型无法处理训练集中没有出现过的词。传统的one-hot representation就面临着这样的问题。
词表示
基于矩阵的词表示(Distributional representations)
基于一个WxC的共生矩阵,W是词表长度,矩阵每一行是一个词w的初始表示,矩阵每一列是一些上下文。有各种文献研究如何构建F,包括上下文的类型,频率计算方法。有时也利用函数f=g(F)来将F映射到一个Wxd的矩阵,其中d远小于C。对于d的选择又是另一个问题了。
基于聚类的词表示(Clustering-based word representations)
Brown clustering
Brown clustering是一种将词进行聚类来使bigram的互信息最大化的层次聚类算法。层次聚类的特性意味着我们可以在不同层级选择一个词所属的类别,这就抵消了一小部分词的很差的聚类效果。它的一个缺点是严格基于二元统计,没有考虑到更长的上下文的应用。
其他聚类的词表示
- k-means聚类的词表示
- 基于HMM的聚类
- 基于CRF的聚类
词向量表示(Distributed representations)
词向量表示是一种密集的,低维度的实值表示,也叫词嵌入。词向量的每一维是词的一个潜在特征。
Collobert and Weston embeddings
此模型是一个判别,非概率模型。对每次训练更新,我们从数据集中读取一段n-gram
HLBL embeddings
log-gilinear模型是一个概率的线性神经模型。给出一个n-gram,模型将前n-1个词的embedding连接起来,学习一个线性模型来预测最后一个词的embedding。预测的embedding和真实的embedding间的相似性通过取幂然后归一化求得。此模型经过优化后叫做hierarchical log-bilinear(HLBL)模型。
- Word representations: A simple and general method for semi-supervised learning
- Supervised learning、Unsupervised learning and Semi-Supervised learning (总结)
- Unsupervised, Semi-Supervised, Supervised Learning
- semi-supervised learning
- Semi-supervised learning
- semi-supervised learning
- Semi-supervised learning
- semi-supervised learning
- Semi-supervised Learning
- Semi-supervised learning
- Multimodal semi-supervised learning for image classification总结
- Semi-supervised Deep Learning for Fully Convolutional Networks文章解读
- What are the advantages of semi-supervised learning over supervised and unsupervised learning?
- Semi-supervised Learning Literature Survey
- 【Machine Learning】笔记:Semi-supervised learning
- 主动学习与半监督学习Active-learning and Semi-supervised learning
- 图像分割"LIP: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing"
- 论文阅读:《LIP: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing》
- ECharts的研究与学习
- 池化层对神经网络的运算速度有什么影响
- 添加了 JavaScript 的图像映射
- PopupWindow完全解析
- jQuery-用jquery中的ajax()代替传统的json传值
- Word representations: A simple and general method for semi-supervised learning
- 浅谈ArrayList和 LinkedList区别
- Zsh 入门(安装及使用)
- 简单的通讯录管理系统
- 云端的SRE发展与实践
- QT控件大全 四十五 QSclock
- 洛谷1879 [USACO06NOV]玉米田Corn Fields
- ssh远程后台执行matlab程序(可并行优化)
- 【LeetCode】39.Combination Sum(Medium)解题报告