笔记-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New

来源：互联网发布：matlab根据数组画图编辑：程序博客网时间：2024/05/18 02:02

Fast Online Training with Frequency-Adaptive Learning Rates for Chinese Word Segmentation and New Word Detection
作者：香港理工大学，北京大学，Xu Sun , Houfeng Wang, Wenjie Li
出处：Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 253–262,Jeju, Republic of Korea, 8-14 July 2012.
高维特征&改进online收敛算法

引言部分
中文分词中的主要问题是分词歧义。新词是引起歧义的重要原因之一。典型的新词，命名实体识别：例如组织机构名，地名，人名。
CRF、ME：将中文分词作为序列标注任务，已经是常规的分词方式(Xue, 2003; Peng et al., 2004; Tseng et al., 2005; Asahara et al., 2005; Zhao et al.,2010)为了取得高精度结果，更多统计量大的模型被用于分词，例如Semi-Markov assumptions 或 latent variables(Andrew, 2006; Sun et al., 2009b)
感知机：semi-Markov perceptron methods 或 voting systems based on multiple semi-Markov perceptron segmenters (Zhang and Clark, 2007;Sun, 2010)
CRF模型普通特征训练已经很费时，如果增加高维特征，将使训练速度更慢。感知机的模型比CRF模型的训练速度快，但是问题是，不输出概率值，只输出分类。
新词发现也是中文分词的重要任务，主要方法有(J. Nie and Jin, 1995; Chen and Bai, 1998;Wu and Jiang, 2000; Peng et al., 2004; Chen and Ma, 2002; Zhou, 2005; Goh et al., 2003; Fu and Luke, 2004; Wu et al., 2011)

使用语料
Sighan 2005 MSR，CU，PKU

正文
算法
其实还是利用CRF的方法。只是改进了算法的收敛方式ADF。一般常用的online方法是SGD，本文ADF是在此基础上改进，包括stochastic meta descent (Vishwanathan et al., 2006) and periodic step-size adaptation online learning (Hsu et al., 2009)。原则是：高频learning rate低，低频learning rate 高；高频已经被充分学习，低频可提高收敛速度。

特征
CRF的特征与之前的论文比较，加入了词典特征：词典一开始是由训练语料生成，后来CRF对测试语料分词，会产生一些新词，这些新词如果大于给定阈值，将被加入到词典中。
被加入的词典特征包括：
从x0（包含x0）向左（6个字以内）是否是词。从x0（包含x0）向右（6个字以内）是否是词。从x0（不包含x0）向左（6个字以内）是否是词。从x0（不包含x0）向右（6个字以内）是否是词。

结果
分词结果：MSR最好成绩97.4，CU最好成绩94.8，PKU最好成绩95.4
训练时间：ADF在大概10次迭代就可以达到SGD50次迭代的效果，时间可省2/3或3/4。
论文最后用ADF+词典特征+1次（不反复迭代添加新词）与使用SIGHAN2005的几个系统做比较：Best05 (Tseng et al., 2005)，CRF + rule-system (Zhang et al., 2006)，Semi-Markov perceptron (Zhang and Clark, 2007) ，Semi-Markov CRF (Gao et al., 2007)，Latent-variable CRF (Sun et al., 2009b)，在MSR与PKU语料上成绩最高。