字符粒度表示用于词性标注
来源:互联网 发布:铋晶体淘宝 编辑:程序博客网 时间:2024/05/16 14:18
简述
概括来讲,就是把单词的字符序列用CNN来提取特征,与预训练的word2vec一并,用于提升词性标注的效果
文章全名:Learning Character-level Representations for Part-of-Speech Tagging
字符特征
字符特征的提取主要是考虑到字母的大小写、前后缀事实上是传统优化算法用于词性标注任务的重要特征,如果能恰如其分用网络结构表示出来,可能取得更好的效果
类似于单词,每个字母都有一个从one-hot到向量的表示,这是第一层
每个单词可以看成字母的序列,进而可以看成字母序列的ngram,取窗口大小为k,其中的一个ngram可以表示为
一个单词转化成{z1,...,zm,...zM},经过一层变换后,在M中取最大的,就得到一个单词的最终表示
最后看到的就是下面这个结构:
每一个单词都分别对应一个通过word2vec训练得到的词向量,和一个字符向量,而字符向量不需要预训练
其他部分都遵循了C&W的文章的方法
其他细节
文章只用了4线程的CPU来训练,对硬件要求不高
从结果上看,保持其他设定,对比手工提取前后缀特征,文章的方法有细微的提升;在遇到未登陆词的时候,在不同的语料上互有胜负。但如果彻底不用形态特征,遇到未登陆词时效果就很差了
字符向量相似度最高的词举例:
阅读全文
0 0
- 字符粒度表示用于词性标注
- viterbi用于中文词性标注
- viterbi用于中文词性标注
- 中文词性标注 符号表示
- 词性标注
- 词性标注
- 词性标注
- 词性标注
- 词性标注
- 词性标注(1)
- 一阶HMM词性标注
- 词性标注类函数
- 斯坦福词性标注Demo
- 词性标注说明
- 计算所词性标注集
- 词性标注POS tagging
- 北大词性标注集
- 中文词性标注
- 论文解读之MemNet: A Persistent Memory Network for Image Restoration
- Caffe的深度学习训练全过程
- nginx 反向代理最简单配置
- MySQL 添加、修改、删除列
- oracle自带的sqlplus怎么以sysdba身份登录?
- 字符粒度表示用于词性标注
- 深入推荐引擎相关算法
- 保持iOS设备屏幕常亮的方法
- bzoj1833 [ZJOI2010]count 数字计数(数位)
- 在Centos 7搭建Docker环境
- Codeforces Round #422 (Div. 2) A B C D
- XListView上拉刷新下拉加载
- Session
- MVC系列~过滤器实现对响应流的处理