SegWord中需要讨论的问题(2)
来源:互联网 发布:电视网络机顶盒推荐 编辑:程序博客网 时间:2024/05/21 09:05
在第一阶段中,除了编码转换、unicode字符串hash函数、词语标注体系和通用组合结构四个问题外,下面两个问题也是着重需要讨论的。
5. 歧义发现
中文分词将会遇到众多的歧义难点,而在处理这些歧义之前,我们首先应该能够发现它们。这就是我们首先要提出讨论的第一个问题。
u 切分歧义
上次有网友提到两个例子,大概是:
我吃烤肉。 我烤肉吃。
技术和服务
歧义字段“烤肉”与“和服务”是非常典型的两个例子。对于前者,在不同的语言环境中可以分别切分为“烤肉”和“烤 肉”,部分与整体均可能成词,这种歧义结构通常称为组合型歧义。对于后者,在不同的语言环境中可以分别切分为“和 服务”与“和服 务*”,此时成词部分存在交叉,常常被称为交集型歧义。如果交集型歧义与组合型歧义同时存在,则一般可称为混合型歧义。
对于交集型歧义的字段,还有一些例子:
成为了 展现在世人 邓小平等 城市中心
韦向峰《汉语字段处理的几点思考》
对于组合型歧义,另有例子:
"把手","这个门的把手坏了好几天了","你把手抬高一点儿"
"本书","本书讨论的问题是一个老生常谈的问题","那本书写得非常精彩"
"并排","这条马路可以并排行驶四辆大卡车","教务科指定了专任讲师并排好了课程时间表"
北大《汉语分词中的组合歧义实例》
这些切分歧义结构,需要一个识别算法。这其中有两点需要注意:
(1) 成词的基本策略
两种基本歧义结构,虽然有一个大致的定义,但也是模糊的。首先我们没有明确的概念什么是“词”,自然“成词”的标准也是模糊的。人可以通过语感来分析,而机器不能,它只能寻求他法,例如,通过查阅词典(在词典中出现便认为是成词),或者通过计算共现概率(超过一定的阀值也认为是成词)。这种“成词”的基本定义,对歧义发现以及分词的影响是深远的,需要加以仔细的讨论与研究。
(2) 识别歧义的深层特征
即使是同一基本类型的歧义字段,它们也有自己的内部深层特征。例如:
技术和服务
“和”可以作为并联结构的标志,也可以作为“和服”的构成字。而一般对并联结构,在后续的语言处理中是可以专门处理的。若这一特征同时也能识别出,是否可以提前利用“并联结构标志”的相关信息来处理该歧义?
又如,
我 吃/v 烤肉/n。 我 烤/v 肉/n 吃/v。
“烤肉”还是“烤 肉”,一个是名词一个是“v+n”的结构,将会对所在句子的结构产生深远的影响。若这一特征可以表示并识别出来,对于该歧义的处理具有很好的启发?
总之,这些深层特征若能以合理的代价同时识别出来,将会对后续的处理大大的有益处。但具体说来,这应该是我们要仔细讨论和研究的第二点。
u 成词的单位
因为汉语中“词”难以有个确切的定义,所以有一部分表面上看起来是组合型歧义的字段,实际上不应该以歧义来处理,而应该考虑成“词”的颗粒度问题。例如
一场 大雨 一场 大 雨
事实上切分为“大雨”,或者“大 雨”,语感上都是可以的。只不过相对来说,前者是大粒度的切词,后者是小粒度而已。对于这种不同,需要考虑的是:
(1) 是否可以从歧义识别中分离出来?
(2) “词”的数据结构,是否可以把这种粒度区分出来?有无必要?
这个问题应该是比较困难的。
u 兼类的识别
可以认为,相对于切词歧义,兼类是另一类歧义问题。它的歧义在于,对于一个成词单位,它同平面内可选的义性超过一个。比如“服务”就存在n和v的兼类问题。不考虑义性的计算,兼类的识别是相对比较容易的。
6. 词库的统计模型
在词库建立的初始,本项目准备同时加入词语的统计知识,也就是建立相应的统计模型。但建立一个什么样的模型,对后续的处理乃至SegWord的应用会产生什么样的影响(也是我们建立模型的基本因素),是需要我们仔细探讨与研究的。
以上六点是SegWord第一阶段所需要着重研究的问题。但最大的问题不是问题本身,而是如何找到解决问题的人并求出问题的解。所以SegWord期盼着更多朋友的参与与支持。
- SegWord中需要讨论的问题(2)
- SegWord中需要讨论的问题(1)
- SegWord讨论大本营
- SegWord 的进展--词库结构
- 求数组中出现1,2次数问题的讨论
- 接口中定义常量的问题讨论
- oracle 中序列问题的讨论
- SegWord::UString的待完全测试代码
- 【软件工程】关于软件工程里需要熟悉的一些基本问题的讨论(一)
- Undo/Redo几种实现方式介绍(五)——两个需要讨论的问题
- [技术讨论]讨论问题的两个基本原则
- 关于javascript中数组元素删除问题的讨论
- C++中关于操作符先(++)后(++)问题的讨论
- 关于.NET中所谓“异步刷新”问题的讨论
- 关于javascript中数组元素删除问题的讨论
- 关于javascript中数组元素删除问题的讨论
- javascript中数组元素删除问题的讨论
- javascript中数组元素删除问题的讨论
- 使用 IIS 进行 Microsoft ASP.NET 2.0 成员/角色管理,第 2 部分:实现
- 集思电话面试
- 用Visual Basic .Net发送电子邮件
- 海量关系数据库的压缩存储与查询策略
- 奇妙的Base64编码
- SegWord中需要讨论的问题(2)
- Java 获取MAC地址2
- 一种有效的关系数据库压缩方法
- SQL server服务器间的数据同步
- 将中英文混合的字符串换行
- JAVA开发工具安装配置心得
- C#的环境变量
- 微想睿思之时髦技术
- 一个很经典的Ajax基础经典教程下载