笔记-1999-消解中文三字长交集型分词歧义的算法

来源：互联网发布：软件行业待遇编辑：程序博客网时间：2024/04/30 01:47

消解中文三字长交集型分词歧义的算法
出处：清华大学学报（自然科学版）1999年第5期

单位：清华大学
作者：孙茂松

三字，交搭歧义，词性，词概率，组合概率，分类词表概率主要内容：

根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。
1 词概率+ 词性Bigram法,
对S3z=ABC, 其切分取作
AB/ C, 如果f ( AB, C) - f ( A, BC) > t0;
A/ BC, 如果f ( AB, C) - f ( A, BC) < - t0;
未定, 如果ûf ( AB, C) - f ( A, BC) û≤t0.
2设定六个字表
对S3z= ABC, 根据分词语料库对{S03z}的人工切分结果, 可搜集到6个关于首字A、中字B、尾字C的字表:
字表L1 为切分为单字词频率很高的首字A 的集合,
字表L2 为切分为单字词频率很低的首字A 的集合,
字表L3 为与首字A 结合成词频率很高的中字B的集合,
字表L4 为与尾字C结合成词频率很高的中字B的集合,
字表L5 为切分为单字词频率很高的尾字C的集合,
字表L6 为切分为单字词频率很低的尾字C的集合
设L是上述任一汉字表, Z是任意汉字, 令
RL ( Z) = 0, 　Z∈/ L;或 1, 　Z∈L.
k1 = RL1( A) + RL4( B) + RL6( C) ,
k2 = RL2( A) + RL3( B) + RL5( C) .
则常用字分合法可描述为对S3z= ABC, 其切分取作
A/ BC, 如果k1 > k2;
AB/ C, 如果k1 < k2;
未定, 其它