SegWord中需要讨论的问题(2)

来源:互联网 发布:电视网络机顶盒推荐 编辑:程序博客网 时间:2024/05/21 09:05

在第一阶段中,除了编码转换、unicode字符串hash函数、词语标注体系和通用组合结构四个问题外,下面两个问题也是着重需要讨论的。

 

5.         歧义发现

中文分词将会遇到众多的歧义难点,而在处理这些歧义之前,我们首先应该能够发现它们。这就是我们首先要提出讨论的第一个问题。

u       切分歧义

上次有网友提到两个例子,大概是:

 

    我吃烤肉。      我烤肉吃。

    技术和服务

 

歧义字段“烤肉”与“和服务”是非常典型的两个例子。对于前者,在不同的语言环境中可以分别切分为“烤肉”和“烤 肉”,部分与整体均可能成词,这种歧义结构通常称为组合型歧义。对于后者,在不同的语言环境中可以分别切分为“和 服务”与“和服 *”,此时成词部分存在交叉,常常被称为交集型歧义。如果交集型歧义与组合型歧义同时存在,则一般可称为混合型歧义。

对于交集型歧义的字段,还有一些例子:

 

       成为了  展现在世人  邓小平等    城市中心

韦向峰《汉语字段处理的几点思考》

 

对于组合型歧义,另有例子:

 

"把手","这个门的把手坏了好几天了","你把手抬高一点儿"

"本书","本书讨论的问题是一个老生常谈的问题","那本书写得非常精彩"

"并排","这条马路可以并排行驶四辆大卡车","教务科指定了专任讲师并排好了课程时间表"

                      北大《汉语分词中的组合歧义实例》

   

这些切分歧义结构,需要一个识别算法。这其中有两点需要注意:

(1)       成词的基本策略

两种基本歧义结构,虽然有一个大致的定义,但也是模糊的。首先我们没有明确的概念什么是“词”,自然“成词”的标准也是模糊的。人可以通过语感来分析,而机器不能,它只能寻求他法,例如,通过查阅词典(在词典中出现便认为是成词),或者通过计算共现概率(超过一定的阀值也认为是成词)。这种“成词”的基本定义,对歧义发现以及分词的影响是深远的,需要加以仔细的讨论与研究。

(2)       识别歧义的深层特征

即使是同一基本类型的歧义字段,它们也有自己的内部深层特征。例如:

技术和服务

“和”可以作为并联结构的标志,也可以作为“和服”的构成字。而一般对并联结构,在后续的语言处理中是可以专门处理的。若这一特征同时也能识别出,是否可以提前利用“并联结构标志”的相关信息来处理该歧义?

又如,

              我 吃/v 烤肉/n        我 烤/v /n /v

“烤肉”还是“烤 肉”,一个是名词一个是“v+n”的结构,将会对所在句子的结构产生深远的影响。若这一特征可以表示并识别出来,对于该歧义的处理具有很好的启发?

总之,这些深层特征若能以合理的代价同时识别出来,将会对后续的处理大大的有益处。但具体说来,这应该是我们要仔细讨论和研究的第二点。

u       成词的单位

因为汉语中“词”难以有个确切的定义,所以有一部分表面上看起来是组合型歧义的字段,实际上不应该以歧义来处理,而应该考虑成“词”的颗粒度问题。例如

              一场 大雨           一场 大 雨

事实上切分为“大雨”,或者“大 雨”,语感上都是可以的。只不过相对来说,前者是大粒度的切词,后者是小粒度而已。对于这种不同,需要考虑的是:

(1)       是否可以从歧义识别中分离出来?

(2)       “词”的数据结构,是否可以把这种粒度区分出来?有无必要?

这个问题应该是比较困难的。

u       兼类的识别

    可以认为,相对于切词歧义,兼类是另一类歧义问题。它的歧义在于,对于一个成词单位,它同平面内可选的义性超过一个。比如“服务”就存在nv的兼类问题。不考虑义性的计算,兼类的识别是相对比较容易的。

 

6.         词库的统计模型

 

在词库建立的初始,本项目准备同时加入词语的统计知识,也就是建立相应的统计模型。但建立一个什么样的模型,对后续的处理乃至SegWord的应用会产生什么样的影响(也是我们建立模型的基本因素),是需要我们仔细探讨与研究的。

 

以上六点是SegWord第一阶段所需要着重研究的问题。但最大的问题不是问题本身,而是如何找到解决问题的人并求出问题的解。所以SegWord期盼着更多朋友的参与与支持。