笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~

来源：互联网发布：中国人口普查2016知乎编辑：程序博客网时间：2024/05/13 22:50

An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified Framework

Hai Zhao Chunyu Kit

City University of Hong Kong

2008年

这篇文章是最之前无监督分词方法的一个比较

主要比较4个指标

Frequency of substring with Reduction (2004年提出)两个重叠的字符串，ABCD，ABC，如果频率相同，则ABC（短的）被认为是redundant word candidate，字串频次必须>1；

Description Length Gain（DLG）没看原文，公式是DLG（x i-j）=L(X) - L(X[ r -> xi-j]+“xi-j”)，字面上的理解是：L（x）是x的熵*x的长度；r -> xi-j是把所有的 xi-j用r这个符号替换；+xi-j在全文结尾再加上xi-j这个字符串

Accessor Variety （AV）边界多样性，取一个字符串，左右边界多样性的最小值。单边边界多样性的计算：例如字符串xi-j，其左侧xi-1的type个数，则是左边界多样性，如果type包含句首（换行），每个句首是一个type；同理，右边界。

Boundary Entropy（Branching Entropy，BE）边界熵，h（xi-j）=-取和（p（x|xi-j）logp（x|xi-j））。即传说中的左熵右熵。

测试语料是Sighan2005，四个语料都做了测试，效果最好的是DLG+AV

2007年的时候，也发表了一篇文章，工作基本相同，没有2008年这篇全面。
名字是：Incorporating Global Information into Supervised Learning for Chinese Word Segmentation
本文列举AV、branch entropy两种非监督分词方法，将其加入到CRF中，看结果。
两种方法的核心都是1970年提出的：if the uncertainty of successive tokens increases,then the location is at a border.即当连续字符的不确定性增加，这个位置有可能是个边界。
本文使用非监督学习方法：1 COS，不同句子中出现的最长相同子串，子串长度在2-7之间，2 AVS，AV（s）=min{Lav(S),Rav(S)}）
监督学习方法是：CRF，特征为6特征，3窗口，与我不一样的地方在于T：数字、日期、英文、标点、其它。并且是T-1T0T1
从实验结果看，AVS会起到一定的作用，COS作用不大。但是相对于baseline的提高，也仅限于与0.001-5例如从0.945-0.949或0.961-0.963