SegWord中需要讨论的问题(2)

来源：互联网发布：电视网络机顶盒推荐编辑：程序博客网时间：2024/05/21 09:05

在第一阶段中，除了编码转换、unicode字符串hash函数、词语标注体系和通用组合结构四个问题外，下面两个问题也是着重需要讨论的。

5. 歧义发现

中文分词将会遇到众多的歧义难点，而在处理这些歧义之前，我们首先应该能够发现它们。这就是我们首先要提出讨论的第一个问题。

u 切分歧义

上次有网友提到两个例子，大概是：

我吃烤肉。我烤肉吃。

技术和服务

歧义字段“烤肉”与“和服务”是非常典型的两个例子。对于前者，在不同的语言环境中可以分别切分为“烤肉”和“烤肉”，部分与整体均可能成词，这种歧义结构通常称为组合型歧义。对于后者，在不同的语言环境中可以分别切分为“和服务”与“和服务*”，此时成词部分存在交叉，常常被称为交集型歧义。如果交集型歧义与组合型歧义同时存在，则一般可称为混合型歧义。

对于交集型歧义的字段，还有一些例子：

成为了展现在世人邓小平等城市中心

韦向峰《汉语字段处理的几点思考》

对于组合型歧义，另有例子：

"把手","这个门的把手坏了好几天了","你把手抬高一点儿"

"本书","本书讨论的问题是一个老生常谈的问题","那本书写得非常精彩"

"并排","这条马路可以并排行驶四辆大卡车","教务科指定了专任讲师并排好了课程时间表"

北大《汉语分词中的组合歧义实例》

这些切分歧义结构，需要一个识别算法。这其中有两点需要注意：

（1）成词的基本策略

两种基本歧义结构，虽然有一个大致的定义，但也是模糊的。首先我们没有明确的概念什么是“词”，自然“成词”的标准也是模糊的。人可以通过语感来分析，而机器不能，它只能寻求他法，例如，通过查阅词典（在词典中出现便认为是成词），或者通过计算共现概率（超过一定的阀值也认为是成词）。这种“成词”的基本定义，对歧义发现以及分词的影响是深远的，需要加以仔细的讨论与研究。

（2）识别歧义的深层特征

即使是同一基本类型的歧义字段，它们也有自己的内部深层特征。例如：

技术和服务

“和”可以作为并联结构的标志，也可以作为“和服”的构成字。而一般对并联结构，在后续的语言处理中是可以专门处理的。若这一特征同时也能识别出，是否可以提前利用“并联结构标志”的相关信息来处理该歧义？

又如，

我吃/v 烤肉/n。我烤/v 肉/n 吃/v。

“烤肉”还是“烤肉”，一个是名词一个是“v+n”的结构，将会对所在句子的结构产生深远的影响。若这一特征可以表示并识别出来，对于该歧义的处理具有很好的启发？

总之，这些深层特征若能以合理的代价同时识别出来，将会对后续的处理大大的有益处。但具体说来，这应该是我们要仔细讨论和研究的第二点。

u 成词的单位

因为汉语中“词”难以有个确切的定义，所以有一部分表面上看起来是组合型歧义的字段，实际上不应该以歧义来处理，而应该考虑成“词”的颗粒度问题。例如

一场大雨一场大雨

事实上切分为“大雨”，或者“大雨”，语感上都是可以的。只不过相对来说，前者是大粒度的切词，后者是小粒度而已。对于这种不同，需要考虑的是：

（1）是否可以从歧义识别中分离出来？

（2） “词”的数据结构，是否可以把这种粒度区分出来？有无必要？

这个问题应该是比较困难的。

u 兼类的识别

可以认为，相对于切词歧义，兼类是另一类歧义问题。它的歧义在于，对于一个成词单位，它同平面内可选的义性超过一个。比如“服务”就存在n和v的兼类问题。不考虑义性的计算，兼类的识别是相对比较容易的。

6. 词库的统计模型

在词库建立的初始，本项目准备同时加入词语的统计知识，也就是建立相应的统计模型。但建立一个什么样的模型，对后续的处理乃至SegWord的应用会产生什么样的影响（也是我们建立模型的基本因素），是需要我们仔细探讨与研究的。

以上六点是SegWord第一阶段所需要着重研究的问题。但最大的问题不是问题本身，而是如何找到解决问题的人并求出问题的解。所以SegWord期盼着更多朋友的参与与支持。