笔记-2002-Combining Classifiers for Chinese Word Segmentation

来源:互联网 发布:阿里云主机纪录怎么填 编辑:程序博客网 时间:2024/06/10 16:21
Combining Classifiers for Chinese Word Segmentation

作者:Nianwen Xue,Susan P. Converse
单位:Institute for Research in Cognitive Science ;University of Pennsylvania 
出处:Proceeding SIGHAN '02 Proceedings of the first SIGHAN workshop on Chinese language processing - Volume 18 Association for Computational Linguistics Stroudsburg, PA, USA ©2002

主要内容:用最大熵解决中文分词问题,抛砖引玉

引言,Introduction
模型,
1为什么用tag解决,怎么tag
2 ME模型
3 ME有标记偏置问题,Transformation-Based Learning去解决
实验
3个实验的介绍
评价及结果分析
讨论
使用最大熵工具注意几点,
1 回车换行只有10 没有13
2 测试语料不能有空行,可以对结果再行处理
3 测试语料如果第一行是测试答案,则输出一个“标记”准确率,并不是P、R、F1
4 迭代次数可以显示对训练语料的拟合程度,Xue的这篇论文拟合程度至少是0.9755