笔记-2003-Chinese Word Segmentation as Character Tagging

来源:互联网 发布:良辰好景知几何txt 编辑:程序博客网 时间:2024/05/19 18:46
Chinese Word Segmentation as Character Tagging
不知道这篇是不是上一篇的扩写,发表在不同杂志上
作者:Nianwen Xue
单位:Inst. for Research in Cognitive Science

出处:Computational Linguistics and Chinese Language Processing Vol. 8, No. 1, February 2003, pp.29-48 The Association for Computational Linguistics and Chinese Language Processing

主要内容:LL,LR,MM,RR;要解决MEMM的转移概率的问题

这篇论文报告了中文分词使用有监督机器学习方法的效果。训练语料由人工标注完成,效果 P 95.01%,R 94.94,训练语料大小237K。
找分词边界不是问题,问题是找到无歧义的分词边界。
由此我们可以看到,Xue在写这篇论文时,其实目的是为了解决歧义。捎带解决OOV。但是,实验中却强调了OOV,以至于后来的论文,这种字序列的学习方法都用于解决OOV
文章重点强调了分词歧义的问题。论文中提到大篇幅提到三种分词歧义,一个是交搭歧义、二是组合歧义、三是因为语义理解产生的歧义(也是组合),用一段说明了OOV的影响。
FMM会因为OOV的增加急剧下降,但是MEMM没有。
标记是 LL,LR,MM,RR

原创粉丝点击