笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~
来源:互联网 发布:中国人口普查2016知乎 编辑:程序博客网 时间:2024/05/13 22:50
An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified Framework
Hai Zhao Chunyu Kit
City University of Hong Kong
2008年
这篇文章是最之前无监督分词方法的一个比较
主要比较4个指标
Frequency of substring with Reduction (2004年提出)两个重叠的字符串,ABCD,ABC,如果频率相同,则ABC(短的)被认为是redundant word candidate,字串频次必须>1;
Description Length Gain(DLG)没看原文,公式是DLG(x i-j)=L(X) - L(X[ r -> xi-j]+“xi-j”),字面上的理解是:L(x)是x的熵*x的长度;r -> xi-j是把所有的 xi-j用r这个符号替换;+xi-j在全文结尾再加上xi-j这个字符串
Accessor Variety (AV)边界多样性,取一个字符串,左右边界多样性的最小值。单边边界多样性的计算:例如字符串xi-j,其左侧xi-1的type个数,则是左边界多样性,如果type包含句首(换行),每个句首是一个type;同理,右边界。
Boundary Entropy(Branching Entropy,BE)边界熵,h(xi-j)=-取和(p(x|xi-j)logp(x|xi-j))。即传说中的左熵右熵。
测试语料是Sighan2005,四个语料都做了测试,效果最好的是DLG+AV
2007年的时候,也发表了一篇文章,工作基本相同,没有2008年这篇全面。
名字是:Incorporating Global Information into Supervised Learning for Chinese Word Segmentation
本文列举AV、branch entropy两种非监督分词方法,将其加入到CRF中,看结果。
两种方法的核心都是1970年提出的:if the uncertainty of successive tokens increases,then the location is at a border.即当连续字符的不确定性增加,这个位置有可能是个边界。
本文使用非监督学习方法:1 COS,不同句子中出现的最长相同子串,子串长度在2-7之间,2 AVS,AV(s)=min{Lav(S),Rav(S)})
监督学习方法是:CRF,特征为6特征,3窗口,与我不一样的地方在于T:数字、日期、英文、标点、其它。并且是T-1T0T1
从实验结果看,AVS会起到一定的作用,COS作用不大。但是相对于baseline的提高,也仅限于与0.001-5例如从0.945-0.949或0.961-0.963
- 笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~
- 论文笔记:LSTM, GRU, Highway and a Bit of Attention: An Empirical Overview for Language Modeling in Speec
- Paper Notes: Empirical Comparison of Algorithms for Network Community Detection
- 笔记-2009-An Error-Driven Word-Character Hybrid Model for Joint CWS and POS Tagging
- 笔记-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New
- an empirical study of learning rates in deep neural networks for speech recognition 总结
- Comparison of a float with a value in C
- 《An Empirical Study of Optimal Motion Planning》
- RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems
- How to sort an array of hashes into hashes with multiple values for a key?
- 人脸特征点定位方法综述 (An Empirical Study of Recent Face Alignment Methods阅读笔记)
- Performance of Java Compilers: An Empirical Study @ JDJ
- An Empirical Study of Real-world Polymorphic Code Injection Attacks
- An Empirical Study of Regression Test Selection Techniques
- An Empirical Exploration of Recurrent Network Architectures重点
- A multiplier of 0 or a nil second item together with a location for the first attribute creates an i
- 转:Is there an comparison of the various mapping libraries for Android?
- 《An Experimental Comparison of Partitioning Strategies in Distributed Graph Processing》——论文笔记
- string::size_type类型
- Win7下解决Android SDK Manager慢
- Xvid安装编译
- mysql 对cpu core 的依赖关系
- Qt在vs2010下的配置
- 笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~
- 小呆瓜的伤感亲情侣空间日志发布:亲爱的,离开你,我身不由己
- 应届IT研究生面试自我介绍中英文模板
- Hadoop 实战之Streaming(十二)
- 使用VMware虚拟机+gparted对SD卡进行分区的图文教程
- hdu 4417 2012杭州网络赛 划分树
- ORA-27101 Shared memory realm does not exist
- “黑马程序员"交通灯管理系统学习日志
- 数据结构链表队列