一个基于括号匹配原理的汉语句法分析器

来源:互联网 发布:it人才需求 编辑:程序博客网 时间:2024/05/29 18:05
一个基于括号匹配原理的汉语句法分析器
                                             周强 黄昌宁
智能技术与系统国家重点实验室
清华大学计算机科学与技术系,北京100084
摘要:本文介绍了一种新的汉语句法分析方法。它在短语界定预测信息的基础上,通过括
号匹配、匹配限制和统计排歧等阶段的处理,可以得到输入句子的一棵最佳分析树,从而
完成对它的自动句法分析。初步实验结果显示这种方法对汉语语料的自动句法分析和标注
具有较好的灵活性和鲁棒性。
关键词:括号匹配,匹配区间限制,统计排歧,句法分析。
A Chinese Syntactic Parser Based on
Bracket Matching Principle
Zhou Qiang, Huang Changning
The State Key Laboratory of Intelligent Technology and Systems
Dept. of Computer Science and Technology
Tsinghua University, Beijing 100084, P.R. China
E-mail: zhouq@s1000e.cs.tsinghua.edu.cn
ABSTRACT
This paper proposes a new Chinese syntactic parser. Based on the phrase boundary locations
that are automatically predicted, it can get a best syntactic tree for an input sentence through
the following stages: (1) To match the left and right brackets completely, (2) To restrict the
ungrammatical matching, (3) To disambiguate using statistics from treebank. Current
experimental results show the parser has better efficiency and robustness for parsing the
Chinese texts.
KEYWORDS: Bracket Matching, Matching Region Restriction, Statistical Disambiguation,
Syntactic Parsing.
1 引言
传统的句法分析技术主要有以下两种:移进--归约分析(shift-reduce parsing)技术和图分
析(chart parsing)技术。以此为基础的LR 分析器[MT86]和图分析器([TW83], [SFI89], [SS94])
主要利用了规则描述信息,通过生成LR 分析表及指导图边的组合顺序,来对句法分析过程
进行控制。近几年来,随着语料库语言学的不断发展和标注语料库规模的不断扩大,许多
研究人员开始尝试直接利用语料库中的标注信息进行句法分析,如:R. Bod 提出的面向数
据分析(Data Oriented Parsing)技术([RB93],[RB92]),文献[SD91]中采用的模拟退火(Simulated
2
Annealing)分析方法,David M. Magerman 的概率型判定树(statistical decision model)模型
([DM95], [DM94])等。这些方法的共同之处是通过对输入句子进行状态变换搜索和统计优化
处理,选择得到最佳的分析树。这两种分析思路反映了对规则作用的截然不同的认识。
本文提出的基于括号匹配原理的自动句法分析技术,则在两者之间找到了一个平衡点。
它通过对句法分析问题的深入分析,将它合理地分解为以下几个处理阶段:①短语界定预
测,②括号匹配和限制,③分析树剪枝和排歧。首先利用局部的词语、词类和少量的句法
特征信息,将句子中绝大部分短语的边界位置正确地识别出来,这实际上提供了移进--归约
及图边组合的边界控制信息,从而把短语成分的识别问题转化成为括号匹配问题,即哪些
左、右括号对能够互相匹配。其间可以利用不同匹配限制机制,排除大量不合语法的匹配
操作,以产生句子的所有合理的句法树。再利用概率评分机制,就可以从中选择出一棵最
佳的分析树。这种处理方法充分利用了传统技术中的高效控制机制和目前比较常用的语料
库知识获取和有效的统计优化技术,具有很强的灵活性和鲁棒性,可以较好地适应对大规
模真实语料文本进行自动句法分析的需要。
对于自动界定预测的有关技术,文献[ZQ96]和[ZZ96]已作了比较详细的介绍。本文将着
重介绍后两个阶段的主要技术,其中第2 节通过对一些基本概念和操作的定义,分析了括
号匹配原理及其基本实现机制,第3 节给出了一些常用的匹配限制策略,第4 节介绍了统
计排歧技术,第5 节给出了初步的实验结果,最后第6 节是结语。
2 括号匹配原理及其实现
在我们目前的汉语句法分析器,括号匹配处理起着承上启下的作用,它主要用来解决
这样一个分析问题:以特征向量S=<W,T,B>作为输入,如何通过其中左右括号的合理匹配,
组合产生所有可能的句法成分,最终形成输入句子的完整分析树(或森林)?
其中W= w1,w2,...,wn 为句子的词语串,T = t1,t2,...,tn 为各词语相应的词类标记串,
B=b1,b2,...,bn 则是一串成分边界信息描述,bi 可取值0,1 或2,分别表示词语wi 处于某个
句法成分的中间位置、左边界(即被赋予左括号)和右边界(即被赋予右括号)位置,它
们是进行括号匹配的基础,并且可以利用现有的成分边界自动预测工具[ZQ96]得到。
匹配分析的实现将涉及到两个重要的子问题:1) 成分划分问题,即哪些左右括号对可
以相互匹配形成一个可能的句法成分。2) 成分定性问题,即这些匹配形成的成分能标以什
么样的句法标记。它的理论基础是下面的全匹配定理。
首先,定义如下几个基本概念和操作:
定义1:一个词部 (WP)是由句子中的词语、词类标记和它的界定预测组成的结合体,
即wpi = [wi, ti, bi], i∈[1,n],n 为句子中的词结总数。根据其中的界定预测的不同,又可分为
左词部(LWP)(bi=1),右词部(RWP) (bi=2)和中词部(MWP)(bi=0)。
定义2:一个语部(PP)是由一对左右词部组成的,表示为ppij =(i, j), 1≤ i < j ≤ n, 且有bi=1,
bj=2。
定义3:一个基本匹配是两个词部wpi 和wpj 在满足如下条件时所进行的匹配操作:
1). wpi 为左词部,wpj 为右词部,且i<j。
2). ∀k∈(i,j), wpk 为中词部。
定义4:一个扩展匹配是词部和语部及语部和语部之间进行的括号匹配操作。它包括以
下三种情况:
1). 左词部lwp i 与语部pp jk 的匹配,需满足条件:
① i<j ② ∀m∈(i,j), wpm 为中词部
2). 语部pp ij 与右词部rwp k 的匹配,需满足条件:
① j<k ② ∀m∈(j,k), wpm 为中词部
3). 语部pp ij 与语部pp kl 的匹配,需满足条件:
① j<k ② ∀m∈(j,k), wpm 为中词部
这样,从匹配初始条件S 出发,就可以交替使用基本匹配和扩展匹配:最初是基本匹
配,然后逐步使用扩展匹配,把句子中的各个可能的左右括号对匹配出来,形成一个句法
3
分析树(或森林)。这里的问题是:这种匹配过程是不是能把句子中所有的括号对都匹配
出来?下面的定理就明确地回答了这个问题。最后的附录给出了此定理的详细证明。
定理(全匹配定理):以S=<W, T, B>作为原始输入,利用基本匹配和扩展匹配,可以
把句子中所有可能的左右括号对都匹配出来。
而具体的匹配算法则是在以下三个基本控制结构上实现的,它们是通过对LR 分析器
[MT86]和图分析器[TW83]的有效控制结构的合理吸收和适当改进而形成的。
1) 括号匹配栈(BMS):保存了进行句法分析所需的所有边界控制信息,功能相当于
Tomita 算法[MT86]中的图结构栈。
2) 压缩共享森林(PSF):保存了经括号匹配得到的所有句法成分信息,类似于chart
结构。
3) 待匹配成分表(PEL):保存了所有待处理的匹配右项信息,可作为一个分析调度器
(agenda)。
有关这一算法的详细内容可参阅[ZQ97]。
3 匹配限制策略
以全匹配定理为基础,可以形成一个基本的自动句法分析算法。它在匹配初始条件下,
通过两种匹配操作,分析产生输入句子的所有可能的分析树。但此算法的分析效率显然是
很低的,因为在全匹配过程中会产生许多不合语法的成分组合。为了提高分析器的处理效
率,需要寻找合理的匹配限制机制,以防止进行不合语法的匹配操作。本节将介绍两种基
本的限制策略:1) 对匹配成分进行定性分析,2) 设置合适的匹配限制区间。
3.1 匹配成分的定性分析
对匹配成分的定性分析,即确定它们的句法标记,可以充分利用其内部的结构组合信
息和外部的语境约束信息对它们进行语法合理性检查,以排除那些不合语法的匹配组合。
它和下一小节将要介绍的匹配区间限制一起,构成了高效率的匹配限制机制,可以把绝大
部分经全匹配算法产生的不合语法的组合过滤掉。
首先,根据语言学上的句法成分组合规律,在现有的词类标记集和句法标记集基础上,
列举出常见的错误组合情况,并总结有用的错误句法结构判定规则,据此可以排除大量不
合语法的匹配成分。
然后,进行以下几个步骤的成分定性分析:
① 利用如下形式的一组标记归约规则:
句法结构组合 :: [ 成分特征约束 ] --> {句法标记,归约概率}+
可以为绝大多数合乎语法的成分组合标上合适的句法标记。这些规则可以通过以下两个途
径得到:A) 人工总结,B) 树库(treebank)统计,它们具有各自的优势。人工总结可以为不
同的句法结构给出丰富的特征约束信息,从而得到很准确的归约标记;而树库统计则可以
从大规模的标记语料库中获得比较客观的归约标记概率分布信息,从而为多个归约标记的
选择提供一定的依据。两者的结合可以取得最佳的处理效果。
② 利用边界标记分布数据:
词类 ti 界定预测('[' 或 ']') 词类 ti+1 → {句法标记,分布概率}+
可以得到匹配成分边界在其局部语境下的两个标记分布集,若它们的交集不为空,就可以
得到整个成分的句法标记。类似的,这组数据也可以通过人工总结和树库统计两条途径得
到。一个具体的处理实例是:
为了确定句子片段“... 在/p [一/m 九/m 七/m 八/m] 年/q 1...”中的匹配成分“[一/m 九
/m 七/m 八/m] ”的句法标记,首先检索边界标记分布信息表,得到以下的两组边界分布
1 有关的词类标记和句法标记简要说明如下:m--数词,q--量词;mp--数量短语,np--名词短语,mbar--数
词准短语,tp--时间词性短语。
4
数据:
p [ m --> mbar 0.97, tp 0.03
m ] q --> mp 0.35, np 0.44, sp 0.11, mbar 0.06, tp 0.04
然后计算两个集合:{mbar,tp}和{mp,np,sp,mbar,tp}的交集,就可以得到此匹配短语的
句法标记集:mbar-tp。
③ 对剩余的句法成分,指派一个不在句法标记集中出现的特殊标记,通过对它们的分
析统计可以发现一些新的结构组合形式。
3.2 匹配区间限制
自然语言中存在着一些天然的成分组合限制情况,如汉语中表示引用的双引号对:
“......”,固定搭配框架:“在......的时候”等,其间的成分一般不与外部发生句法组合关
系。对此进行抽象和总结,可以形成以下的匹配限制区间:
定义5:匹配初始条件S=<W, T, B>下的匹配限制区间<RL,RR>是满足以下条件的一个
区域:
1). 1≤RL<RR≤N, N 为句子中的词语总数。
2). bRL =1, bRR = 2.
3). ∀bi , bi =1 or 2, ∃bj, bj =2 or 1, 其中bj 和bi 形成一对匹配括号,且i,j∈[RL,RR]。
从定义5 可以看出,匹配限制区间对括号匹配操作的限制实际上是双向的:从内部看,
其间所进行的各种匹配不能越过两个边界的限制;而从外部看,此区间又是一个“黑盒子”,
外部的括号只能与区间边界上的括号发生作用。这种关系可以从图 1中清楚地看出来。图
中的弧线表示括号匹配操作,而标上×的弧线则表示此种匹配操作是被禁止的。
...[ ... [ [ ] ] ... ] ...
RL RR
图 1 匹配限制区间描述
利用匹配限制区间,就可以基本匹配算法进行如下的改进:
1). 对区间中的匹配操作进行边界限制,保证它们不越过区间的左右边界。
2). 当区间内部的所有匹配操作完成以后,归约句法成分[RL,RR],使此区间作为一个
整体成分参加后续的匹配操作,从而保证了区间外的括号不与区间内的括号发生作用。
有效地应用匹配限制区间的关键是正确识别出句子中的常见区间限制组合。文献
[ZQd96]对此进行了比较详细的讨论,给出了汉语中的并列短语、固定搭配短语和标点分隔
结构的自动识别和处理方法。
4 统计排歧处理
经过以上的括号匹配、成分定性和区间限制处理,可以在匹配初始条件下分析产生句
子中所有合理的句法树,对此需要提供一种有效的排歧机制,以便从中选择一棵最佳的分
析树。本节介绍了一种利用概率型上下文无关语法(PCFG)处理思想,通过构造概率评分
(Probabilistic Score)模型进行自动排歧的方法。
设句法成分PH 是由成分 RP1,RP2, ... ,RPn 通过结构规则 PH→RP1 RP2 ... RPn 组合
而成的,则令分析器组合得到 PH 的概率为:
5
P PH P RPiP PH RP RP RPn
i
n
( )= ( )⋅ ( → ... )
= Π
1 2
1
(1)
其中的规则概率分布信息 P(PH→RP1 RP2 ... RPn) 可以从树库中直接统计得到[ZQd96]。另
外,若句法成分 RPi 为一个词语,则取 P(RPi) = 1。
为便于计算,在公式(1)的两边取对数,就得到了句法成分PH 的概率评分Score(PH) 。
Score PH P PH P RPi P PH RP RP
i
n
( )=log ( )=log ( )⋅ ( → ... n)

 

 
= Π1
1
= + →
= Σ
log P(RPi) log P(PH RP ...RP )
i
n
n
1
1
= + →
= Σ
Score RPi P PH RP RP
i
n
( ) log ( ... n)
1
1 (2)
利用此概率评分模型,就可以在括号匹配和分析树生成过程中,自底向上同时进行统
计排歧处理,最终得到句子的一棵最佳分析树。
5 实验结果分析
5.1 实验语料
为了测试目前的汉语句法分析器的处理性能,我们采用了以下两部分语料:
1). 汉英机器翻译研究的测试题库(语料A)。语料的规模为1434 个汉语句子,约11821
个词,汉字总数为17058,平均句长为8.243 词/句。
2). 新加坡小学语文课本语料2(语料B),总规模为4139 个句子,约52609 个词,汉
字总数为72434 个,平均句长为12.711 词/句。
首先对这两部分语料进行人工标注,形成树库(treebank)语料。然后对它们进行均匀抽
样,形成了包含4777 个句子的训练样本和796 个句子的测试样本。并根据句子中所含的词
项数(包括词语和标点符号)的不同,将语料中的句子分成二类:一是简单的句子,其中的词
项数< 20;二是复杂的句子,其中的词项数≥20。通过对这两类句子的分析结果进行比较,
特别是对复杂句子的性能指标进行准确的评估,可以对分析器的处理性能有一个比较全面
的认识。表 1 列出了这两个样本中的简单句子和复杂句子的分布情况。
表 1 实验样本的简单句子和复杂句子分布
简单句子 复杂句子 平 均
句子数 所占百分比句子数 所占百分比句 长
训练样本 4176 87.419 601 12.581 11.533
测试样本 683 85.804 113 16.477 14.196
5.2 整体性能分析
以经过正确切分和词性标注处理的句子作为分析器的输入,目前的汉语句法分析器经
过以下阶段的处理:① 短语界定预测,② 括号匹配和限制,③ 分析树剪枝和排歧。得到
了输入句子的最佳分析树。然后将此分析结果与树库中的正确标注结果相比较,得到了表 2
所示的实验结果。
2 此语料的电子版本由国立新加坡大学赖金定博士提供,在此表示感谢。
6
表中的界定错误率记录了括号匹配处理之前的短语自动界定预测结果。而有关分析器
的整体处理性能则通过以下几个技术指标表现出来:① 括号召回率(matched recall):指自
动分析器得出的正确括号对在树库语料所有的正确括号对中所占的比例。② 括号正确率
(matched precision):指正确的(即在树库语料中出现的)括号对在自动分析器得到的所有
括号对中所占的比率。③ 交叉括号数(crossed brackets):记录了那些交叉括号对(即自动分
析结果与正确划分结果发生部分重叠的括号对)3在每个句子中平均出现的数目。④ 标记正
确率(labeled precision):指自动分析结果中具有正确句法标记的括号在所有正确界定的括号
对中所占的比例。
表 2 句法自动分析器的处理性能
封闭测试 开放测试
简单句子 复杂句子整体情况简单句子复杂句子 整体情况
界定错误率(%) / / 2.91 / / 3.04
括号召回率(%) 89.45 82.51 87.43 89.60 80.81 86.79
括号正确率(%) 89.42 82.40 87.38 89.28 80.71 86.54
交叉括号数 0.72 3.44 1.06 0.71 3.71 1.14
标记正确率(%) 95.79 93.88 95.26 95.61 93.53 95.00
句子分析率(%) / / 99.98 / / 100.00
分析速度(句/秒) 1.38
从中可以看出:
1). 由于采用了括号全匹配的处理思想,并在句子的首尾设置了强制界定值(左括号和
右括号),使绝大多数的句子都可以得到自动分析结果,达到了极高的句子分析率。
2). 分析器的整体标记准确率基本上稳定在95%左右,并且对复杂句子的处理并没有引
起标记正确率的大幅度下降,表现出很好的鲁棒性。
3). 对于自动划分(bracketing)的整体处理性能,实验结果显示了这样的数据组合:约
86%的括号召回率和括号正确率以及每个句子平均1.1 个的交叉括号数。文献[SYW95]利用
语法自动推导而得到的英语SCFG 规则,对约2000 句句子进行了测试,得到了这样的结果:
85%的括号召回率、64%的括号正确率和2.00 的交叉括号数。David M. Magerman 对句子长
度为4 到40 个单词的华尔街日报(WSJ)语料的分析实验达到了86%的括号准确率、86%的
括号召回率和1.3 的交叉括号数[DM95]。尽管由于语种和训练语料的不同,两个实验结果
并不一定具有可比性,但考虑到汉语短语分析是难点所在,我们认为目前系统的处理效果
还是令人满意的。
4). 正如我们最初所预测的那样,实验结果显示出自动分析器在处理复杂句子时产生了
较多的错误,引起括号正确率和括号召回率的较大下降。其主要原因是由于随着句子长度
的增加,短语界定预测出错的可能性也在不断增大。而且一个界定预测错误在不同长度的
句子中的影响也是不同的:在简单的句子中,它可能只会产生一个交叉括号对;而在复杂
的长句子中,它就可能导致产生一连串的交叉括号对。如何利用新的技术,提高对复杂句
子的分析排歧能力,将是以后研究中的一个重要课题。
5.3 匹配区间限制的性能分析
本节通过一个简单的实验来显示匹配区间限制对句法分析器处理性能的影响。
首先,从树库语料中随机选出100 句长度在10 个词到30 个词之间的句子,其具体分
布为:10 个词到19 个词之间的句子,选80 句;20 个词到30 个词之间的句子,选20 句。
然后,通过控制是否采用匹配区间限制,分别对这100 句句子进行自动分析,记录下不同
3 例如:若正确分析结果为:[[ 一个 ] [[ 爱 读书 ] 的 孩子 ]],自动分析结果为:[[ 一个 ] [ 爱 [ 读书
的 孩子 ]]],则其中的括号对“[ 爱 读书 ]”和“[ 读书 的 孩子 ]”就发生了交叉。
7
条件下的实验数据,得到了表 3 的结果。其中“匹配成分总数”统计了分析过程中所有经
过匹配操作而产生的句法成分的数目,而“分析树总数”则记录了语料句子中经自动分析
器处理而得到的所有分析树的总和(其具体计算方法可参阅[ZQd96])。
表 3 匹配区间限制前后的性能数据
匹配区间限制前匹配区间限制后
匹配短语总数 9.36×104 6.89×103
分析树总数 3.45×105 8.04×104
分析器总用时(秒) 841 84
分析速度(句/秒) 0.12 1.19
界定错误率 3.01 2.29
括号招回率(整体) 83.75 87.71
括号正确率(整体) 83.88 88.14
交叉括号数(整体) 1.87 1.4
标记正确率(整体) 93.89 95.11
从表中可以看出,经过匹配区间限制处理,使分析器的处理速度提高了10 倍,而匹配
成分总数及分析树总数则分别下降了10 倍,从而节省了大量的时空消耗。而另一方面,各
项分析性能指标则都有较大的提高,显示出很好的处理效果。
但应该看到的是,目前系统中的匹配限制区间的设置并不是完全准确的。一些人为设
置的错误限制区间往往给分析结果带来了许多负面的影响。考虑下面的一个经过界定预测
处理的句子:
[我们/r [照着/p [老师/n 的/u 指示/n] ,/w [分头/d [去/v 工作/v] 。/w ]4
其正确的的分析结果应为:
[zj [dj 我们/r [vp [pp 照着/p [np 老师/n 的/u 指示/n ]] ,/w [vp 分头/d [vp 去/v 工作
/v ]]]] 。/w ]
但由于其中逗号的作用而自动形成了两个匹配限制区间,使得前面的“r+pp”首先进行了归
约,从而得到了下面的错误的分析结果:
[zj [fj [dj 我们/r [pp 照着/p [np 老师/n 的/u 指示/n ]]] ,/w [vp 分头/d [vp
去/v 工作/v ]]] 。/w ]
从这儿可以看出,目前的匹配限制区间的自动识别方法还有许多不完善的地方,有待
进一步的改进和提高。
6 结语
本文介绍了一种基于括号匹配原理的汉语自动句法分析方法,它具有以下几个特点:
1) 通过对句法分析问题的合理分解,从中提取出短语自动界定预测作为分析的预处理
阶段,它可以利用较少的信息自动预测出句子中大部分短语的边界位置,从而为括号匹配
算法的实施打下了很好的基础。
2) 全匹配定理的证明和各种匹配限制机制的提出,保证了分析算法理论上的完备性和
实际应用时的有效性。
3) PCFG 规则及其他树库统计信息在分析和排歧中的有效应用,充分发挥了标注语料库
作为一个语言知识库在句法分析中的重要作用,大大降低了人工编制规则所需的巨大的人
力物力消耗。
目前的实验结果已显示出此方法具有较好的分析排歧效果。在以后的研究中,还可以
在以下几个方面对此方法进行改进和提高:
4 有关的词类标记和句法标记简要说明如下:r--代词,p--介词,n--名词,u--助词,d--副词,v--动词,w--
标点符号;pp--介词短语,np--名词短语,vp--动词短语,dj--单句,fj--复句,zj--整句。
8
1) 在目前分析器的自动排歧过程中,PCFG 规则中的概率分布信息起了很重要的作用。
但由于现有树库的规模还比较小,从中统计得到PCFG 规则难免具有覆盖率较低、分布概
率不够客观等缺陷,这给排歧结果的准确率带来了一定的影响。针对目前缺乏规模较大的
汉语树库的现实,如何利用已有的比较成熟的无指导训练方法,从大规模的经过正确切分
和词性标注的语料中自动习得更好的PCFG 规则,将成为一个重要的研究课题。
2) 针对PCFG 规则排歧能力上的不足,目前许多研究人员又提出了一些改进措施,如
尝试利用上下文相关概率信息([MM90],[CC94]),利用词汇优先组合信息进行自动排歧
([HR93],[BJL93],[SW93],[EC95])等。如何充分利用这些研究成果,通过应用机器学习和语料
库统计等处理技术,加强现有概率评分机制的排歧能力,是我们今后另一个重要的研究方
向。
3) 分析速度是考察分析器处理性能的一个重要指标,我们的分析器在这方面还比较差。
目前国际上一些新的研究动向,如采用有限状态自动机和部分分析技术([BN96], [SA96]),
利用“Best-First”选择技术([MW92],[CC96])等,对我们进行这方面的改进具有一定的借鉴
作用。
致谢
本文是第一作者的博士论文一部分研究工作的总结,得到了两位导师:姚天顺教授和
俞士汶教授的悉心指导和北京大学计算语言学研究所许多老师和同学的热情帮助,这里一
并表示感谢。本项研究得到国家自然科学基金资助,项目号为69483003。另外,作者还要
感谢两位不知名的审稿者对论文原稿提出的宝贵意见。
参考文献
[BJL93] E. Black, F. Jelinek, J. Lafferty, D. Magerman, R. Mercer & S. Roukos. (1993)
“Towards history-based grammars: using richer models for probabilistic parsing”, In
Proceedings of the 31th Annual Meeting of the Association for Computational Linguistics,
31-37.
[BN96] Eberhard Bertsch & Mark-Jan Nederhof. (1996). “An innovative finite-state concept for
recognition and parsing of context-free languages”. In A. Kornai (ed.) Proceedings of the
EACL’96 Workshop --- Extended Finite State Models of Language, 1-9.
[CC94] E. Charniak & G. Carroll. (1994). “Context-Sensitive Statistics For Improved
Grammatical Language Models.” In Proc. of AAAI-94, 728-733.
[CC96] Sharon A. Caraballo & Eugene Charniak. (1996). “New Figures of Merit for Best-First
Probabilistic Chart Parsing”, Technical report, Department of Computer Science, Brown
University.
[EC95] Murat Ersan & Eugene Charniak. (1995). “A statistical Syntactic Disambiguation
Program and What It Learns”, Technical report CS-95-29, Department of Computer Science,
Brown University.
[DM94] David M. Magerman. (1994). Natural Language Parsing as Statistical Pattern
Recognition, Doctoral dissertation, Stanford University, Stanford, USA.
[DM95] David M. Magerman. (1995). “Statistical Decision-Tree Models for Parsing”, In Proc. of
ACL-95, 276-303.
[HR93] D. Hindle & M. Rooth. (1993). “Structural Ambiguity and Lexical Relations”,
Computational Linguistics, 19(1), 103-120.
[MT86] M.Tomita. (1986). Efficient Parsing for Natural Language --- A Fast Algorithm for
Practical System. Kluwer Academic Publishers.
9
[MM90] David M. Magerman, and M. Marcus. (1990). "Pearl: A probabilistic Chart Parser." Proc.
of COLING-90, 15-20.
[MW92] David M. Magerman & Carl Weir. (1992). “Efficiency, robustness and accuracy in
Picky chart parsing”, In Proc. of the 30th ACL Conference, 40-47.
[RB92] Rens Bod. (1992). “A Computational Model of Language Performance: Data Oriented
Parsing”, In Proc. of COLING-92, Nantes.
[RB93] Rens Bod. (1993). “Using an Annotated Language Corpus as a Virtual Stochastic
Grammar”, In Proc. of AAAA-93, 778-783.
[SA96] Steven Abney. (1996). “Partial Parsing Via Finite-State Cascades”. In Proc. of ESSLLI’
[SD91] Clive Souter & Time F. O’Donoghue. (1991). “Probabilistic parsing in the COMMUNAL
project”, In Stig Johansson and Anna-Brita Stenstrom (eds.) English Computer Corpora :
Selected papers and Research Guide. 33-48.
[SFI89] O. Stock, R. Falcone, & P. Insinnamo. (1989). “Bi-directional charts: a potential
technique for parsing spoken natural language sentences”, Computer Speech and Language,
3, 219-237.
[SS94] G. Satta, & O. Stock. (1994). “Bi-directional context-free grammar parsing for natural
language processing”, Artificial Intelligence, 69, 123-164.
[SW93] Y. Schabes & R.C. Waters. (1993). “Stochastic Lexicalized Context-Free Grammar”, In
Proceedings of the third International Workshop on Parsing Technologies, 257-266.
[SYW95] H-H. Shih, S. J. Young, N.P. Waegner. (1995). “An inference approach to grammar
construction”, Computer Speech and Language, 9(3), 235-256.
[TW83] T.Winograd. (1983). Language as a cognitive process. Vol1, Syntax, 116-129.
[ZQ95] 周强. (1995). “规则和统计相结合的汉语词类标注方法”, 《中文信息学报》, 9(3),
1-10.
[ZQ96] 周强. (1996).“一个汉语短语自动界定模型”,《软件学报》第7 卷,增刊,315-322
[ZQd96] 周强 (1996). “汉语语料库的短语自动划分和标注研究”,博士学位论文,北京大
学计算机系,1996.6.
[ZQ97] 周强 (1997). “汉语匹配分析算法的实现”,《语言工程》,陈力为、袁琦主编,
清华大学出版社,194-200。
[ZY93] 周强,俞士汶. (1993). "一种切词和词性标注相融合的汉语语料库多级加工方法", 陈
力为主编,《计算机研究与运用》,北京语言学院出版社,126--131。
[ZZ96] 周强,张伟. (1996).“一个汉语改进的短语自动界定模型”,In Proc. of ICCC’96,
Singapore, June 4-7, 75-81.
10
附录
定理1(全匹配定理):以S=<W, T, B>作为原始输入,利用基本匹配和扩展匹配,可
以把句子中所有可能的左右括号对都匹配出来。
证明:利用数学归纳法,对句子中的词部个数n 进行归纳:
1). n=2, 此时只需对两个左右词部进行一次基本匹配,就可以得到作为匹配结果的仅有
的一个括号对,命题成立。
2). 假设命题对所有n≤k 的句子都成立,需要证明当n=k+1 时,命题也成立。
从句子的最后一个词语位置(n=k+1)开始,向左检索,跳过若干个中词部,直到碰到一
个左词部或右词部为止,设它在句子中的位置为m(m≤k)。根据其上的界定预测的不同,
分别加以讨论:
a). wpm 为左词部,此时,可先进行一次基本匹配,得到语部ppmn。然后以一个虚拟的
右词部rwp m’来替换语部pp mn,可以得到一个新的长度为m(≤k)的句子。根据归纳假设,
其上的所有括号对都可以通过基本匹配和扩展匹配得到。检索这些匹配操作序列,得到所
有包含虚拟右词部的操作序列,以语部ppmn 代替之,就形成了新的扩展匹配序列,它们所
产生的括号对,再加上第一次基本匹配所得到的括号对,即为第n(=k+1)个词结上的界定预
测(右括号)与前面的所有左括号所可能产生的括号对。
b). wpm 为右词部,则根据归纳假设,句子中[1,m]间的所有括号对都已经匹配出来了,
因此可以从中检索出所有的语部ppim , i∈[1,m-1],将它们与右词部rwpm 进行扩展匹配操作,
就可以得到所有新的括号对。
综合a)、b)可得,当n=k+1 时,命题也成立,命题证毕 □
原创粉丝点击