SIGHAN评测回顾-1-(2003-2005)

来源：互联网发布：三合一建站源码编辑：程序博客网时间：2024/05/12 06:01

SIGHAN评测回顾-1-(2003-2005)

2013-06-21 10:45 1470人阅读评论(1) 收藏举报

 分类：
NLP文献阅读（22） 

版权声明：本文为博主原创文章，未经博主允许不得转载。

这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述，不详细不精确，个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。

国际中文自动分词评测（简称SIGHAN[1]评测）采用多个由不同机构提供的数据集合进行评测[2]。每个机构提供的数据集都包含训练语料、测试语料和标准答案，参评者可以自由选择一种或者多种参加评测。在此之前中文分词的评测为国家863和973的内部评测^[1][2]。

2003年5月第一届Bakeoff在日本札幌举行^[3]；2005年第二届Bakeoff在韩国济州岛举行^[4]，评测充分展示了中分分词研究领域中的一些重要发展和新动向；2006年第三届Bakeoff在澳大利亚悉尼举行^[5]，在前两届的基础上加入的中文命名实体评测；2007年第四届Bakeoff在印度举行^[6]，该届评测增加中文词性标注评测；2010年CIPS-SIGHAN联合会议^[7]在北京举行[3]，与往届不同，评测语料为专业领域语料（来自Literature、Computer、Medicine、Finance四个领域），评测任务为中文分词、中文句法分析、中文人名消歧、中文词义归纳；2012年第二届CIPS-SIGHAN联合会议^[8]在天津举行[4]，中文分词任务锁定在“微博领域的汉语词语”。

下面介绍SIGHAN的历年评测结果。

表1-1至表1-5，分别显示2003年至2010年，Bakeoff各个语料在封闭测试（Close）和开放测试（Open）上得分最高的队伍、队伍联系人、F1值和测试语料中OOV的比率。

表1-1 2003年Bakeoff评测结果

Table 1-1 Result of Bakeoff 2003

任务

最高分队伍

最高分联系人

OOV率

类型

语料

加州大学伯克利分校

AitaoCHEN

0.961

0.022

CTB

中科院

HuapingZHANG

0.881

0.181

台湾中央研究院

WeiYunMA

0.940

0.071

中科院

HuapingZHANG

0.951

0.069

Open

SYSTRANSoftware

JinYANG

0.904

0.022

CTB

北京大学

BaobaoCHANG

0.912

0.181

台湾中央研究院

WeiYunMA

0.956

0.071

微软

AndiWU

0.959

0.069

2003年Bakeoff 共19支队伍参赛，12支队伍提交最终结果。从参评方法来看，大部分参赛队伍的分词方法是基于词的分词方法。主要集中在词典与人工规则相结合；词典与概率统计规则相结合。AS的Open任务只有两个队伍参加。表1-1中AS的Open得分低于Close得分。

伯克利分校^[9]首先利用1元最短路径粗分，再使用规则：合并连续单字、合并后缀用字、重建命名实体，最后检查上下文的一致性。SYSTRAN公司^[10]同样使用大词表+规则的方法，指定了详细的分词歧义消解规则。北京大学^[11]使用人工规则，更改分词的颗粒度。

台湾中央研究院首先用词典将语料分词^[12]，然后使用规则与统计概率相结合的方法发现OOV方法，发现OOV与筛选OOV所使用到的统计信息包括：互信息、共现频率、t-score。微软^[13]不仅保留了词本身的信息，还保留了词性信息；使用规则解决重叠词、命名实体问题，使用统计信息发现OOV。中科院张华平的^[14]多层HMM模型，先将时间英文单词等按照需求颗粒度切分；然后对整句做全切分，识别每个子单元的词性、词类，在利用词性、词类这些值作为HMM的参数（发射概率、转移概率），求得得分最高的路径。

与此同时，薛念文已经使用最大熵模型进行中文分词，虽然该方法没有在任何一个语料上获得第一，但是该方法在CityU和AS上的召回率高居榜首。未登录词对分词精度的影响比分词歧义对分词精度的影响大10倍，人们开始青睐这种能够获得最高未登录词召回率的分词方法。

表 1-2 2005年Bakeoff评测结果

Table 1-2 Result of Bakeoff 2005

任务

最高分队伍

最高分联系人

OOV率

类型

语料

NAIST

Masayuki ASAHARA

0.952

0.043

Yahoo! Inc.

Aitao CHEN

0.950

0.058

CityU

Stanford NL Group

Huihsin TSENG

0.943

0.074

MSR

Stanford NL Group

Huihsin TSENG

0.964

0.026

Open

NUS

Hwee Tou NG

0.956

0.043

NUS

Hwee Tou NG

0.969

0.058

CityU

NUS

Hwee Tou NG

0.962

0.074

MSR

ITNLP Lab, HIT

Wei JIANG

0.972

0.026

表1-2中部分缩写全称为：奈良科学技术研究所（Nara Institute of Science and Technology，NAIST），新加坡国立大学（National University of Singapore，NUS），哈尔滨工业大学（Harbin Institute of Technology，HIT）。

2005年Bakeoff共34支队伍参赛，23支队伍提交最终结果。受到03年最大熵方法的影响，05年大部分参赛队伍开始使用基于字序列标注的分词方法。取得最好成绩的这四支队伍均使用了字序列标注的方法。

在封闭测试中，奈良科学技术研究所^[15]对四中机器学习模型都进行了尝试：CRF、SVM、ME、MEMM，最好的结果是由CRF产生的。斯坦福自然语言小组^[69]直接使用CRF 的方法，特征窗口为5。雅虎^[16]仍然使用ME模型，增加了预处理与后处理。预处理中，人为对训练语料中1500个人名和4000个地名进行标注。训练出人名、地名识别模型，识别人名地名。并利用有限自动机识别数字。后处理中，重复出现的串、与训练语料不一致的串得到了更正。

新加坡国立大学^[17]使用基于ME模型的分词方法，在开放测试上成绩突出。主要增加了两类信息：1加入词典信息，如果一个字加集合上下文在词典中可以找到（Max）则标记这个字在词中的位置与长度；2 增加训练语料，模型分词正确的训练语料被加入到真正的训练中。

哈工大在分词阶段仍以基于词的n-gram方法为核心^[18]。先将词按照词典初步切分，并从训练语料统计得到3-gram信息，动态规划计算哪条切分路径最优。但在命名实体识别、新词识别、消除分词歧义部分使用ME模型。。

这次评测验证了字序列分词方法的有效性，评测最高分由使用ME、CRF模型的分词方法获得。基于CRF模型崭露头角，在封闭测试上单独使用CRF模型好于单独使用ME模型。

参考文献1-18

[1] 刘开瑛. 现代汉语自动分词评测研究. 1997(01)

[2] 孙茂松, 邹嘉彦. 汉语自动分词综述. 当代语言学, 2001,3(1):22-32

[3] Sproat R, Emerson T. The first international Chinese wordsegmentation bakeoff. Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, Sapporo, Japan 2003, 133-143

[4] Emerson T. The second international Chinese word segmentation bakeoff. Proceedings ofthe 4th SIGHAN Workshop on Chinese Language Processing, Jeju Island, Korea, 2005, 123-133

[5] Levow G. The third international Chinese word segmentation bakeoff. Proceedings of the5th SIGHAN workshop on Chinese Language Processing, Sydney, Australia,2006, 108–117.

[6] Jin G, Chen X. The fourth international Chinese language processing bakeoff: Chinese wordsegmentation, named entity recognition and Chinese-pos-tagging. Proceedings of the 6thSIGHAN Workshop on Chinese Language Processing, India, 2007, 69–81.

[7] Hongmei Zhao and Qun Liu. The CIPS-SIGHAN CLP 2010 Chinese word segmentation bakeoff. Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP2010), Beijing, China, 2010, 199-215

[8] Aitao Chen，Chinese Word Segmentation Using Minimal Linguistic Knowledge. 148-151

[9] Jin Yang, Jean Senellart, Remi Zajac. SYSTRAN’s Chinese Word Segmentation.180-183

[10] Duan Huiming, Bai Xiaojing, Chang Baobao, Yu Shiwen.152-155

[11] Wei-Yun Ma, Keh-Jiann Chen.A Bottom-up Merging Algorithm for Chinese Unknown Word Extraction.168-171.

[12] Andi Wu,Chinese Word Segmentation in MSR-NLP.172-175

[13] Hua-Ping Zhang, Hong kui Yu, De Yi Xiong, Qun Liu.HHMM-based Chinese Lexical Analyzer ICTCLAS.63-70

[14] Masayuki Asahara, Kenta Fukuoka, Ai Azuma, Takashi Tsuzuki, Chooi-Ling Goh, Yotaro Watanabe ,Yuji Matsumoto. Combination of Machine Learning Methods for Optimum Chinese Word Segmentation.134-137

[15] Aitao Chen, Yiping Zhou, Anne Zhang, Gordon Sun. Unigram Language Model for Chinese Word Segmenation.138-141

[16] Jin Kiat Low, Hwee Tou Ng , Wenyuan Guo. A Maximum Entropy Approach to Chinese Word Segmentation.161-164

[17] Wei Jiang, Jian Zhao, Yi Guan, Zhiming Xu. Chinese Word Segmentation based on Mixing Model. 180-182

[18] Hai Zhao, Chang Ning Huang,Mu Li, An Improved Chinese Word Segmentation System with Conditional Random Field. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, pages 162–165, Sydney, July 2006.

[1]SIGHAN是中文处理专业委员会的简称

[2]官方网址：http://www.sighan.org/，论文集网址：http://aclweb.org/anthology-new/sighan.html

[3]会议主办方网址：http://www.cipsc.org.cn/clp2010/index.htm

[4]会议主办方网址：http://www.cipsc.org.cn/clp2012

0 0