笔记-1999-消解中文三字长交集型分词歧义的算法

来源:互联网 发布:软件行业待遇 编辑:程序博客网 时间:2024/04/30 01:47
消解中文三字长交集型分词歧义的算法
出处:清华大学学报(自然科学版)1999年第5期
单位:清华大学
作者:孙茂松
三字,交搭歧义,词性,词概率,组合概率,分类词表概率主要内容:

根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。
1 词概率+ 词性Bigram法,
 对S3z=ABC, 其切分取作
AB/ C, 如果f ( AB, C) - f ( A, BC) > t0;
A/ BC, 如果f ( AB, C) - f ( A, BC) < - t0;
未定, 如果ûf ( AB, C) - f ( A, BC) û≤t0.
2设定六个字表
对S3z= ABC, 根据分词语料库对{S03z}的人工切分结果, 可搜集到6个关于首字A、中字B、尾字C的字表: 
字表L1 为切分为单字词频率很高的首字A 的集合, 
字表L2 为切分为单字词频率很低的首字A 的集合, 
字表L3 为与首字A 结合成词频率很高的中字B的集合, 
字表L4 为与尾字C结合成词频率很高的中字B的集合, 
字表L5 为切分为单字词频率很高的尾字C的集合, 
字表L6 为切分为单字词频率很低的尾字C的集合
设L是上述任一汉字表, Z是任意汉字, 令
RL ( Z) = 0,  Z∈/ L;或 1,  Z∈L.
k1 = RL1( A) + RL4( B) + RL6( C) ,
k2 = RL2( A) + RL3( B) + RL5( C) .
则常用字分合法可描述为对S3z= ABC, 其切分取作
A/ BC, 如果k1 > k2;
AB/ C, 如果k1 < k2;
未定, 其它