笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~

来源:互联网 发布:中国人口普查2016知乎 编辑:程序博客网 时间:2024/05/13 22:50

An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified Framework

Hai Zhao Chunyu Kit 

City University of Hong Kong

2008年

这篇文章是最之前无监督分词方法的一个比较

主要比较4个指标

Frequency of substring with Reduction (2004年提出)两个重叠的字符串,ABCD,ABC,如果频率相同,则ABC(短的)被认为是redundant word candidate,字串频次必须>1;

Description Length Gain(DLG)没看原文,公式是DLG(x i-j)=L(X) - L(X[ r -> xi-j]+“xi-j”),字面上的理解是:L(x)是x的熵*x的长度;r -> xi-j是把所有的 xi-j用r这个符号替换;+xi-j在全文结尾再加上xi-j这个字符串

Accessor Variety (AV)边界多样性,取一个字符串,左右边界多样性的最小值。单边边界多样性的计算:例如字符串xi-j,其左侧xi-1的type个数,则是左边界多样性,如果type包含句首(换行),每个句首是一个type;同理,右边界。

Boundary Entropy(Branching Entropy,BE)边界熵,h(xi-j)=-取和(p(x|xi-j)logp(x|xi-j))。即传说中的左熵右熵。

测试语料是Sighan2005,四个语料都做了测试,效果最好的是DLG+AV


2007年的时候,也发表了一篇文章,工作基本相同,没有2008年这篇全面。
名字是:Incorporating Global Information into Supervised Learning for Chinese Word Segmentation
本文列举AV、branch entropy两种非监督分词方法,将其加入到CRF中,看结果。
两种方法的核心都是1970年提出的:if the uncertainty of successive tokens increases,then the location is at a border.即当连续字符的不确定性增加,这个位置有可能是个边界。
本文使用非监督学习方法:1 COS,不同句子中出现的最长相同子串,子串长度在2-7之间,2 AVS,AV(s)=min{Lav(S),Rav(S)})
监督学习方法是:CRF,特征为6特征,3窗口,与我不一样的地方在于T:数字、日期、英文、标点、其它。并且是T-1T0T1
从实验结果看,AVS会起到一定的作用,COS作用不大。但是相对于baseline的提高,也仅限于与0.001-5例如从0.945-0.949或0.961-0.963