自然语言处理新天地(之三[4])

来源:互联网 发布:什么编程语言最难 编辑:程序博客网 时间:2024/05/24 05:54

4.3 语句表示式及其格式

语句表示式这个术语在《HNC理论》中经常使用,上一节还在前面加了HNC修饰词,这意味着可以有各种各样的语句表示式。但我们始终没有给语句表示式下一个定义。这里建议采用下面的定义:把各语句单位按一定顺序排列起来、并形成一定意义的语句表示方式。

按照这个定义,乔姆斯基的S=NP+VP表示式并不符合语句表示式的条件,因为它虽然规定了语句单位的排列顺序,但不能保证形成一定意义,其生成能力过强众所周知,上面所引用的乔氏自嘲名句就是例证。为什么乔氏表示式不具备语句表示式的资格?简单地说,是由于他的语句单位选用不当,直接采用短语为语句的下一级构成单位。

表示式HNC21之所以可以充当构成语句表示式的基础,是由于它规定了一个语句具有一定意义的最小充分必要条件:主语义块的类型与个数。这句话似乎有一个“多余”,一个“不通”。“多余”的是“具有一定意义”,“不通”的是“最小充分必要条件”。

“多余”说的理由是:既然是语句,当然就具有一定意义,加这个修饰词不是画蛇添足么?这个问题要从两方面来回答,一,这里的“一定”不是泛指的“一定”,而是一系列特指的“一定”,这些特指就是各具体句类。二,无意义的语句可以由乔氏表示式大批量“生产”,而且文学和语言学大师们还经常玩弄变无意义为有意义的语言游戏,站在“以计算机为本”的立场,需要对“意义”加以适当限制。所以,加上修饰词“一定意义”就很有必要了。

“不通”说的理由是:既然是充分必要条件,就无“最小”之说。这个问题也需要从两方面来回答。一,语句的意义不仅决定于语义块的类型和个数,还决定于它们的排序。二,语句的意义虽然主要决定于主语义块,但辅语义块的贡献也不可忽视,有时甚至超过主语义块。由于这两重原因,“主语义块的类型与个数”就只是语句具有一定意义的充分必要条件的“最小值”。严格数学意义下的充分必要条件确实无“最小”之说,但语言学借用数学概念,不是需要采取“超然”方式么,这又是一例而已。

那么,把表示式HNC21中的各语义块按什么顺序排列,才能构成语句表示式?不要小看这个问题,它涉及许多基本语言现象的“根”,如西语名词的格,介词的语法功能,汉语的“把”字句等。

为了研究语句表示式,最好回到HNC20的形式,并在符号上作两项简化:去掉自变量x;把特征语义块EK减少到一个。这样,语句表示式就可以写成下面比较简明的形式:

           J=[JK]+EK+[{fK}]                    J-0

这是仅有一个特征语义块的语句表示式,但是,如果对JK引进块扩和句蜕的概念,就可以增强它的适应性,允许多个特征语义块的存在,从而包括上述全部57组基本句类。这个表示式的物理意义可以这样来陈述:它代表这样一类语句,它们以一个特征语义块EK为核心,配置一个或若干个广义对象语义块JKn,并可另行配置一个或若干个辅语义块。

根据这一陈述,那么对此类语句的感知或理解,就是要找出这些语义块。换句话说,语句的感知或理解过程就是一个辨认各个语义块的过程。这个辨认过程理论上应该分为两步,第一步是辨认JKEKfK三者之间的差异,第二步是辨认三者的内部差异或意义。

设想存在这么一种理想的自然语言,它对每一个语义块的上述两种差异都给出明确的标记,那么,两步认定过程就迎刃而解了,什么两步和语义块的顺序,都无所谓了。

但是,上述理想语言实际上是不存在的,也是不现实的,因为内部差异的标记非常复杂。自然语言的实际做法是,将上述两种差异合并为语法特性加以标记。不同的语种在标记的方式或技巧方面各有千秋,不过,比较起来也许是日语表现最“佳”,而汉语表现最“差”。

所谓屈折语的形态变化,黏着语的黏附成分,主要就是为了实现下述两项功能:一是充当语义块的差异标记,二是充当语义块内部构成的指示标记。其它的功能是次要的,甚至是多余的。

除了标记之外,语义块本身的排序也可以提供语义块的辨认信息。例如,将语句表示式HNC20改写成下面的两种形式

          J=JK1+EK+[JKm]+[fK],   m=2,3¼          J-1

              J=[JKm]+[fK]+EK                         J-2

就可以减轻语义块辨认的负担,因为前者给出了JK1EK的明确位置信息,后者明确给出了EK的位置信息,两者分别相当于所谓SVOSOV语言。SVOSOV之说如果加上“双O”(双宾语)和“双S”(双主语)的概念,适用性是比较宽的。不过,HNC仍然认为:采用符号JKm替代S和O,对于研究语句表示式的各种变化更为方便。当然这样做的必要前提是:能够对JK的下标m赋予确定的语义角色意义,而这一点由于基本句类和混合句类的发现已经不存在任何障碍了。所以,下面将以语句表示式J-1为基础来讨论语句格式问题。

语句格式定义为语句主语义块的排列顺序,每一种排列顺序就是一种或一类格式,为什么有“一种”与“一类”之分?本次研讨会有一篇关于语句格式的专题论文,读者可从中找到答案。格式不管辅语义块,因此,把J-1再改写成下面的5种形式:

          J =JK1+EK+[JKm]  m=2,3                 

          J3=JK1+EK+JK2                        

          J4=JK1+EK+JK2+JK3                    

         J21=JK+EK

         J22=JK1+JK2

除了复句之外,这5种形式的语句的覆盖面对于格式的研究是足够的。HNC把上列形式的语句统称基本格式。应该再次强调的是,这里的JKm都已经在句类的基础上分配了给定的语义角色,与语法意义下的主语宾语概念完全脱离了关系。完全脱离关系的利弊很值得研究,但不属于本文的讨论范围了。

基本格式是对语义块顺序信息的充分利用,其基本特征是不对任何语义块给出任何标记信息,因为它认为位置就包含了所需要的全部信息,代表了各语义块的语义角色。这个说法表面上“气壮如牛”,但是实际上仍然存在问题,各个语义块之间的边界就那么一目了然么?即使说把EK摆在第二号位置可形成两个天然分界,那J4语句的JK2JK3之间,J22语句的JK1JK2之间总存在边界模糊吧!但是,基本格式就是采取“蛮不讲理”的态度,对此置之不理。因此,采用基本格式的语言可以说是“蛮不讲理”的语言。

那么,世界上真有这样的语言么?有!有多少我不知道,但我知道至少有一位,那就是汉语。英语对“p400e31-0”有I me 之分,汉语用一个“我”全代表了,甚至还扩展到代表myour。你看汉语之“蛮”,简直到了“野蛮”的程度,不是吗?!

然而,正如许多哲人说过的,真理与谬误常常只有一步之差,汉语的上述“野蛮”正是其高度智慧的表现。“J4语句的JK2JK3之间,J22语句的JK1JK2之间”的边界永远是“对象B”与“内容C”的边界,不可能是两“对象B”或两“内容C”之间的边界,如果你能够区分“对象B”与“内容C”,那么,这个边界模糊实际上是不存在的。而人的大脑对于“对象B”与“内容C”的区分是轻而易举的,据此,汉语就放心使用基本格式了,难道这不是智慧的表现么!但是,对于电脑来说,这个边界模糊却是一道不可忽视的障碍,在《HNC理论》p165中把这一障碍叫做“BC佯谬”。

值得特别指出的是,汉语一方面在严格意义上使用基本格式,同时又丰富多彩地使用各种非基本格式,包括HNC定义的规范格式、违例格式和各种省略格式。

规范格式是指主语义块在基本格式的基础上互相交换位置,这时,在每两个广义对象语义块之间就要加上边界标记,指示边界后面的广义对象语义块的m编号,即该语义块语义角色的代号。违例格式是对规范格式的违规,缺省了部分或全部应有的语义块边界标记符。看下面的例句:

 1   张三||已经通知了||李四#参加||明天下午的桥牌比赛#

 2   张三||[|已经]^/{参加||明天下午桥牌比赛}的事/||通知了||李四。

 3   /{参加||明天下午桥牌比赛}的事/||^||张三||通知||李四。

 4   {李四||参加||明天下午桥牌比赛}的事/||^||张三||通知

 5   明天下午的桥牌比赛||^||张三||通知||李四||(参加)。

 6   明天下午的桥牌比赛||张三||要赶紧通知||李四||(参加)。

 7   明天下午的桥牌比赛,李四||非参加不可,张三||要赶紧通知。

 8   明天下午的桥牌比赛,李四||非参加不可,[|]^让张三||赶紧通知||他。

这是内容基本相同的一组信息转移句

             T3J=TA+T3+TB+T3C,   T3C=ErJ

1句是基本格式,2-5句是规范格式,6-7句是违例格式。下面对这些例句稍作说明。先交代一下标记符号:

            ||     语义块边界标记符

           {  }   原型语蜕标记符

           /  /    包装句蜕标记符

           #  #   块扩标记符

           [|  ]   特征语义块前向分离标记符

            ^     语义块指示符

信息转移句的T3C具有块扩特性,这里的块扩语句是一个效应句

             Y90J=YB+Y90+YC

在这个效应句里省略了YB。根据信息转移句与效应句相配合的句类知识,效应句中省略的对象一定是TB,这里就是李四。如果在YB的位置上出现了人称代词“他”,那“他”一定是指TA,而不是YB,这里就是张三。但应注意,后面的“规则”要排除TBT3C之间出现逗号的情况。

在规范格式里,语义块总数不变。但是,基本格式里的块扩语句却变成了一个包装原型句蜕,这并非必然现象,但有规律可寻,很值得研究。第五句的参加似乎可以省略,其实不然,一省略就有歧义,参加、参观、参预(比赛工作人员)的界线就不清楚了。

违例格式的语义块边界在第六句里呈现出“BC佯谬”,在7-8两句里,用逗号替代了语义块边界标记,这是违例格式常用的语法手段。但逗号的语法功能太多,是不是充当违例格式的语义块边界标记符,惟有依靠EgEp的句类知识才能作出判断。

从上面3种格式的对比可以看出,汉语的不同格式,是对语法范畴“格、时、体、态、式”的综合运用。汉语语法学家早就知道汉语语序的这一语法功能,并进行过深入系统的研究,HNC需要虚心学习。但是,“语序”之“语”的单位似乎应该更明确一些,把它划分为语义块间和语义块内两大类型,是否更有利于汉语的“时、体、态、式”研究?借这个提出问题的机会,我愿意郑重推荐:凡是以语义块为“序单位”的语言现象,格式的概念是非常有用的。说到这里,我不禁想起在20世纪遭受到种种不公平评说的国学大师们(这里按国学的当时标准),他们的功过在21世纪也未必能得到科学的论定。但是,他们对音韵反切表示法的过度钟爱,却是可以作出定论的。

本节需要说明的要点现在只剩下“混合句类3192”了。这个数字来于

           5757-1=3192

没有任何神秘。混合句类是基本句类的衍生物,基本句类的定义是:主特征语义块只表述作用效应链的一个环节;混合句类的定义是:主特征语义块表述作用效应链的两个(或两个以上)环节。对混合句类,我只想说这么一句话,它提供了一个设计、赋予、配置句类知识的巨大空间。我们需要更多的博士来研究这个具有重大意义的课题。

 

5、结束语

我最害怕展望未来。因为第一,在我看来,未来学尽管出了很多名人,但还不是一门科学。第二,我只是一只比较勤奋的“刺猬”,而且永远学不会“狐狸”的智慧,而展望未来是需要这一智慧的。

HNC未来的展望不能孤立地进行,要同许嘉璐先生最近提出的中文信息处理第二阶段战役结合起来考虑。

第二阶段战役从句处理开始,到篇章处理结束。这个战役在国外已经打响了半个世纪(因为人家不需要字处理战役),“突破性”进展曾屡有报导,但无一不是昙花一现。自然语言处理属于人工智能这个“大杂烩”学科的分支,这一学科的大师级人物中唯一的诺贝尔奖金获得者H·西蒙先生曾两次展望人工智能的光辉前景,但都以彻底破产落幕。我们在展望中文信息处理第二战役的前景时,不能不考虑上述历史背景或事件的根源。

第二战役的应用领域都涉及到语言知识处理的核心技术,这一核心技术绝对离不开对自然语言的计算机理解。绕过语义或理解另辟蹊径的做法是当前自然语言处理技术路线的国际主流,但许先生明确指出,绕开语义之路是行不通的。我完全支持许先生的这一基本论断。

HNC理论为计算机的语句理解制定了一个可以实现的标准,即句类分析技术,并为这一技术配备了一系列相应的知识表示方案。现在,这个技术已经在计算机上初步实现了,本次研讨会上有多篇这方面的报告。

当前的基本势态是:句类分析技术的两翼(软件与知识库)与理论基础都需要有一个新的飞跃才能赢得第二战役的决定性胜利。

软件新飞跃的主要标志是:对HNC符号体系或类似符号体系(但绝不能是自然语言符号体系本身)实现全面的“编译”;将句类分析技术升级为扩展句类分析技术,实现理解处理20项难点的综合治理。

知识库新飞跃的主要标志是:将句类知识体系或类似的语句知识体系(但绝不能仅仅是句法知识体系)进一步完善;将词语预期知识的覆盖率提高到接近人类大脑的水准。

理论基础新飞跃的主要标志是:将语境知识框架形式化,为此不能仅采用“狐狸”式研究,要推进向“刺猬”方式的转变;将句群、段落、篇章要点的表示框架形式化,并在研究方式上推进同样的转变。

实现上列新飞跃的关键在于涌现一支顶尖人才的团队。这个团队不仅需要理论和技术人才,还需要市场运作高手;需要张良、韩信、萧何的紧密配合,还需要一位刘邦来统帅。

我愿意毛遂自荐,充当半个张良。

这个团队的核心正在形成,但还需要扩展十倍。

这一扩展团队的基本形成,就是第二战役决定性胜利即将到来的可靠征兆。

这就是我对中文信息处理第二战役的展望。而HNC的未来,当然是依附于这一展望之上。

 



*本文得到973项目“G1998030506”的支持

** 本文听取了李耀勇博士后的许多重要建议,特此致谢。

 

原创粉丝点击