笔记-1999-消解中文三字长交集型分词歧义的算法
来源:互联网 发布:软件行业待遇 编辑:程序博客网 时间:2024/04/30 01:47
消解中文三字长交集型分词歧义的算法
出处:清华大学学报(自然科学版)1999年第5期
单位:清华大学出处:清华大学学报(自然科学版)1999年第5期
作者:孙茂松
三字,交搭歧义,词性,词概率,组合概率,分类词表概率主要内容:
根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。
1 词概率+ 词性Bigram法,
对S3z=ABC, 其切分取作
AB/ C, 如果f ( AB, C) - f ( A, BC) > t0;
A/ BC, 如果f ( AB, C) - f ( A, BC) < - t0;
未定, 如果ûf ( AB, C) - f ( A, BC) û≤t0.
2设定六个字表
对S3z= ABC, 根据分词语料库对{S03z}的人工切分结果, 可搜集到6个关于首字A、中字B、尾字C的字表:
字表L1 为切分为单字词频率很高的首字A 的集合,
字表L2 为切分为单字词频率很低的首字A 的集合,
字表L3 为与首字A 结合成词频率很高的中字B的集合,
字表L4 为与尾字C结合成词频率很高的中字B的集合,
字表L5 为切分为单字词频率很高的尾字C的集合,
字表L6 为切分为单字词频率很低的尾字C的集合
设L是上述任一汉字表, Z是任意汉字, 令
RL ( Z) = 0, Z∈/ L;或 1, Z∈L.
k1 = RL1( A) + RL4( B) + RL6( C) ,
k2 = RL2( A) + RL3( B) + RL5( C) .
则常用字分合法可描述为对S3z= ABC, 其切分取作
A/ BC, 如果k1 > k2;
AB/ C, 如果k1 < k2;
未定, 其它
1 词概率+ 词性Bigram法,
对S3z=ABC, 其切分取作
AB/ C, 如果f ( AB, C) - f ( A, BC) > t0;
A/ BC, 如果f ( AB, C) - f ( A, BC) < - t0;
未定, 如果ûf ( AB, C) - f ( A, BC) û≤t0.
2设定六个字表
对S3z= ABC, 根据分词语料库对{S03z}的人工切分结果, 可搜集到6个关于首字A、中字B、尾字C的字表:
字表L1 为切分为单字词频率很高的首字A 的集合,
字表L2 为切分为单字词频率很低的首字A 的集合,
字表L3 为与首字A 结合成词频率很高的中字B的集合,
字表L4 为与尾字C结合成词频率很高的中字B的集合,
字表L5 为切分为单字词频率很高的尾字C的集合,
字表L6 为切分为单字词频率很低的尾字C的集合
设L是上述任一汉字表, Z是任意汉字, 令
RL ( Z) = 0, Z∈/ L;或 1, Z∈L.
k1 = RL1( A) + RL4( B) + RL6( C) ,
k2 = RL2( A) + RL3( B) + RL5( C) .
则常用字分合法可描述为对S3z= ABC, 其切分取作
A/ BC, 如果k1 > k2;
AB/ C, 如果k1 < k2;
未定, 其它
- 笔记-1999-消解中文三字长交集型分词歧义的算法
- 规则法消解交集型歧义
- NLP: 中文分词算法---交集歧义检测 (cross ambiguity detect)
- 中文自动分词歧义类型
- 6.8 歧义消解
- 8.2 歧义消解
- 中文分词算法笔记
- 中文分词算法笔记
- 中文分词算法笔记
- 中文分词算法笔记
- 基于VSM的命名实体识别、歧义消解和指代消解
- 消解算法
- C++句法歧义及消解方法
- 中文分词歧义切分:严守一把手机关了
- 中文分词算法——基于统计的分词
- 离散数学 Resolution 消解算法
- 基于规则的中文分词算法
- 我自己设计的中文分词算法
- jquery判断复选框处于选中状态的个数
- emma 小记
- 一些CMD的命令
- 倒等腰三角形
- 开机显示client mac addr...... 错误的解决办法
- 笔记-1999-消解中文三字长交集型分词歧义的算法
- Session-会话
- div层被Flash遮住的解决方法
- XML基础
- 关于BCP 数据导出的记录
- 爱摘苹果的小明
- epoll使用详解(精髓)
- 创业经:移动开发者如何申请高新区扶持资金
- C#获取Web和非Web程序的目录