笔记-2003-Chinese Word Segmentation as Character Tagging
来源:互联网 发布:良辰好景知几何txt 编辑:程序博客网 时间:2024/05/19 18:46
Chinese Word Segmentation as Character Tagging
不知道这篇是不是上一篇的扩写,发表在不同杂志上
作者:Nianwen Xue
单位:Inst. for Research in Cognitive Science
不知道这篇是不是上一篇的扩写,发表在不同杂志上
作者:Nianwen Xue
单位:Inst. for Research in Cognitive Science
出处:Computational Linguistics and Chinese Language Processing Vol. 8, No. 1, February 2003, pp.29-48 The Association for Computational Linguistics and Chinese Language Processing
主要内容:LL,LR,MM,RR;要解决MEMM的转移概率的问题
这篇论文报告了中文分词使用有监督机器学习方法的效果。训练语料由人工标注完成,效果 P 95.01%,R 94.94,训练语料大小237K。
找分词边界不是问题,问题是找到无歧义的分词边界。
由此我们可以看到,Xue在写这篇论文时,其实目的是为了解决歧义。捎带解决OOV。但是,实验中却强调了OOV,以至于后来的论文,这种字序列的学习方法都用于解决OOV
文章重点强调了分词歧义的问题。论文中提到大篇幅提到三种分词歧义,一个是交搭歧义、二是组合歧义、三是因为语义理解产生的歧义(也是组合),用一段说明了OOV的影响。
FMM会因为OOV的增加急剧下降,但是MEMM没有。
标记是 LL,LR,MM,RR
- 笔记-2003-Chinese Word Segmentation as Character Tagging
- 笔记-2003-Chinese Word Segmentation as LMR Tagging
- 笔记-2006-Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation
- 笔记-2004-Adaptive Chinese Word Segmentation
- 笔记-2012-Unsupervized Word Segmentation the case for Mandarin Chinese
- 笔记-2002-Combining Classifiers for Chinese Word Segmentation
- 笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging
- 笔记-2009-An Error-Driven Word-Character Hybrid Model for Joint CWS and POS Tagging
- use paoding chinese word segmentation in solr
- 笔记-2003-A Maximum Entropy Chinese Character-Based Parser
- tagging笔记
- 搜索引擎之中文分词(Chinese Word Segmentation)简介
- 搜索引擎之中文分词(Chinese Word Segmentation)简介
- 搜索引擎之中文分词(Chinese Word Segmentation)简介
- 外文翻译_A Search-based Chinese Word Segmentation Method
- 搜索引擎之中文分词(Chinese Word Segmentation)简介
- 中文分词文献列表 Bibliography of Chinese Word Segmentation
- [ACL2017]Adversarial Multi-Criteria Learning for Chinese Word Segmentation
- Tools - Template array
- Cookie (二)
- Cookie会话管理
- 语法
- [Linux] shell read命令 参数 -t -n -s记录 [大三TJB_708]
- 笔记-2003-Chinese Word Segmentation as Character Tagging
- Response对象
- JE WakeLock [android][sogou]
- 初学Android,网络应用之使用Socket(八十四)
- ASP母板页与内容页的异目录使用
- python学习之路- 标准库
- Wireless tools for Linux
- thrift安装
- SqlServer字符串替换并去重