自然语言处理新天地(之三[3])

来源:互联网 发布:什么编程语言最难 编辑:程序博客网 时间:2024/05/17 06:38

4、语言概念空间的语句基元符号体系(第二组Mi)

    973项目的一次论证会上,当我第一次公布57个基本句类表示式的时候,项目首席科学家、中科院自动化所所长马颂德教授(现任科技部副部长)在场下大声说,“我在你那本书上到处找这些表示式,就是没有找全,原来你保密。”这是马教授的过人之处,他并不是语言学家,而是图像信息处理专家,但他一下子抓住了HNC的要害。

    “语义块是句类的函数—句类表示式—基本句类57—混合句类3192”

这就是语言概念空间的语句基元符号体系的要点

    句类表示式的概念从哪里来?这可以从多个角度进行说明,今天我想讲的是:句类表示式不过是对“主谓宾定状补”概念的语义转换。

对“主谓宾”概念进行各种转换的研究可以说是近半个世纪来语言学研究的焦点,流派众多。其中最著名的应推乔姆斯基先生的转换生成公式

                    S=NP+VP

这个公式并不是语义转换,但终究是一个计算机可以把握的语句表示式,通过它,就可以让计算机把握“主谓宾”的概念了。从这个意义上说,乔姆斯基先生是第一位将语言学从“以人为本”转变到“以计算机为本”的先行者,而且他在策略上十分精明,先给出一个对印欧语系接近“鲁棒”标准的S=NP+VP通用表示式,然后用管辖(GB)理论加以缝补。

    直接从事“主谓宾”语义转换研究的有两位代表人物,一位是乔姆斯基的学生菲尔墨先生,另一位是乔姆斯基的对手山克先生。这两位先生都意识到主谓宾(SVO)之间存在某种函数关系,但都不明说,且回避“函数关系”的提法,分别用“格”和“概念从属”的术语来替代。为什么?因为如果直接采用函数关系的提法,而又写不出函数表示式,那将对论文的尽快发表产生不利影响。

    建立函数关系表示式是所有科学研究的共同追求目标,也是所有自然科学分支从最初无所不包的哲学中独立出来的标志。自然语言的语句能否建立某种形式的函数表示式?这当然是一个非常严肃而重大的课题。刚才说到的“格”和“概念从属”理论都试图探讨这一课题,并从主语和宾语是谓语的函数这一隐含假定着手。但这一隐含假定隐含着一个明显的失误。因为,主谓宾之间存在3种相互制约的关系,不能只管主谓、谓宾两种相互制约关系,而置主宾相互制约关系于不顾。这一失误的根源,不能不说是动词中心说(对印欧语系的语句是正确的形式概括)和配价语法理论(对语句现象的另一种正确概括)造成的。

    考虑到主谓宾三者之间都存在相互制约的关系,那就应该假定三者共同受到一个更基础的东西的制约,如果这一东西存在,并命名它为x,那么,就可以仿效乔姆斯基表示式写出下面的“语句块表示”:

               J(x)=[JK(x)]+[EK(x)]+[{fK}|]                HNC20

“语句块表示”是“语句的语义块表示”的简称,其意义是:句子J3种类型的语句单位—JKEKfK─的各自有限集合构成,符号“[ ]”表示有限集合。JKEK分别命名为广义对象语义块和特征语义块,合称主语义块,两者大体相当于NPVPfK命名为辅语义块,与某些PP相当,fK的括号{ }表示它不是必须单位。

    语句块表示HNC20与乔姆斯基表示式的根本区别,不在于用JK替代NP,用EK替代VP,并用JKEK两者的各自有限集合(包括空集)替代NPVP的递归性,而在于HNC假定JK和EK是某一自变量x的函数

于是,问题归结为,这个假定的x究竟是什么?HNC的答案是:句类。句类的字面解释是:语句概念联想脉络的类型,也叫语句级全局概念联想脉络,简称句类。

那么,句类如何划分?或者说句类划分的依据是什么?

答案是明确的,“作用效应链既是核心概念基元分类的总纲,又是语句分类的总纲。”这指的是语句的最高级分类。

作用效应链为6个环节,那么7个基本句类之说从何而来?

7个基本句类”仍然指的是语句的最高级分类,7=6+1,这“+1”来于亚里斯多德的语句命题说,“北京是中华人民共和国的首都”这样的典型命题句(基本判断句)不属于作用效应链的范畴。命题属于判断,“作用效应链+判断”也被称为广义作用效应链,这个术语不必深究,不过是为了叙述方便而已。

57组基本句类才是正规的说法,那么,“57”这个神秘的数字从何而来?

主要来于作用效应链的二级概念节点。这些概念节点的设计过程要同时考虑到基本句类划分的需要,上一节已对此作了扼要的阐述。但仍然觉得不够透彻,故这里引用拙著《HNC理论》中的一段话,虽然这段话大约属于难懂的典型之一,但只好滥竽充数了。

    六个主体基元概念二级节点的设计,不仅必须反映每一基元概念的总体特征,还应该考虑到每一基本句类的子类分类特征。这是主体基元概念二级节点设计的基本依据。

    所谓基元概念的总体特征是指与全局联想有关的内容。如作用就要联想到作用的承受和反应;效应就要联想到变化和结果;过程就要联想到开始和结束、因与果、趋向与转化以及进展性与重复性等;转移就要联想到发和收、入和出、起点和终点、转移的内容、工具和途径等。

    但是,并不是每一总体特征都具备构成句类子类的资格,我们只选择那些具备这一资格的特征充当二级节点,而将其他的特征放到0分行里。过程的内容(指运动、演变和生命过程)在0分行,而转移的内容(指物和信息)却构成转移的二级节点,道理就在这里。

HNC理论》pp85-86

那么,“57”这个数字等于广义作用效应链二级节点数量的总和么?否!“57”是基本句类表示式的“组”数,不是“个”数。“组”的划分,基于多方面的考虑,这里就从略了。应该说明的是,基本句类表示式有5级之分,但这个级别的意义相当于我国的教授,而不是行政干部。还应该说明的是,57”这一数字不是不可以变动的,我甚至欢迎HNC自身队伍里出现主张不同数字的流派。

 

4.1语句块表示的符号体系和符号化

上面阐释了语句块表示 HNC20 的物理意义,但这样的表示式仍然是计算机不可操作的,还需要将表示式中的3种语义块进一步符号化。符号化首先就要设计主语义块的符号基元以及他们的组合方式。

主语义块是句类的函数,那么,如何在主语义块的符号表示式中体现这一函数关系?最直截了当的办法是:一,用句类基元的定义域直接替代特征语义块的符号基元。二,把广义对象语义块的符号基元连接在特征语义块符号基元之后。这样,语义块与句类的函数关系就明确表示出来了。

句类基元的定义域就是广义作用效应链,作为句类的符号基元,需要重新约定相应的符号。HNC约定:广义作用效应链的7个环节分别用下列7个大写英文字母代表:

                  EÎ{X,P,T,Y,R,S,D}

E表示句类基元的通用符号,定义域中的具体句类基元符号,如过程P、转移T、关系R、状态S取自英语相应word的第一个字母,但作用与效应采用了特殊符号XY,这是由于考虑到两者的特殊地位。判断未取judgeJ,而取 decide D,那是从权,因为J已预定用于句子 juzi 的代码表示。用J表示句子,无疑是不智之举,但我认为,有必要将句类表示式与乔姆斯基的语句生成表示式区别开来,同时S是状态句类符号的自然之选,所以就横下心来,冒一次“天下之大不韪”了。

现在假定广义对象语义块的通用符号为G(其定义域见下文),那么,语句块表示 HNC20 就可以改写成便于计算机操作的 HNC21 形式了。

               J(Em)=[EmG|n]+[Em]                   HNC21

表示式HNC21 中的数字下标m表示句类的级别,n是广义对象语义块的关系标记。在这个表示式中省略了辅语义块,同时应注意到,式中的G也是可以重复的。

    表示式HNC1和 HNC21代表了HNC理论研究到今天为止的全部成果,面壁6年,所得不过就是这两个表示式。概念节点表是从HNC1演化出来的,57组基本句类表示式是从HNC21演化出来的。但在《HNC理论》中不仅没有明确给出这两个表示式,而且还在个别地方,故意搞了一点神秘感甚至误导。这是因为市场时代是“狐狸”为王的时代,迫使老实的“刺猬”们不能不多留一点心眼。

表示式HNC21的细节说明需要较多的文字。这里仅对下标m的约定稍作说明。m的位数代表句类的级别,一位数代表一级句类,两位数代表二级句类,依此类推。各“位”的数字代表相应级别句类的子类类型。例如,一位数的Xmm=1-4)分别代表作用句的4种一级子类:作用的承受、作用的反应、作用的免除和约束,一位数的Tmm=1-4)分别代表转移句的4种一级子类:转移的接收、物转移、信息转移、交换替代与变换;两位数的X20X21X22分别表示一般反应、主动反应和被动反应3种反应句(作用句的二级子类),T2b表示转移句二级子类之一的自身转移句;三位数的T492代表先出交换句;四位数的T4a10代表扩展替代句。这里还应该特别说明,下标m可以为空,代表0级(最高级)句类,共7个,分别命名为基本作用句XJ,基本过程句PJ,基本效应句YJ,基本状态句SJ,基本判断句jDJ,块扩判断句DJ和作用效应句XYJ。上面谈到句类的级别相当于我国的教授级别,那么,这70级句类就很类似于我国1956年内定的4位特级教授了。

对表示式HNC21中的G,在《HNC理论》“论文2”的2.2节作了不遗余力的说明,可惜文字艰涩,令人难以卒读。该节力图阐明两个要点:一是语义块必须作为句类的函数来处理,二是必须引入语义块基元的概念,并试图证明广义对象语义块的基元有而且只有3个:作用者A、对象B和内容C其中内容基元C的引入是关键性的,故不惜笔墨,从各个角度作了近乎繁琐的论证。这3个广义对象语义块基元就是G的定义域

                      GÎ{A,B,C}

字母A来于agentactorB来于objectC来于content。所谓HNC21G的重复,应区分两种情况。在句类的语义块表示式中,是指ABC必须按顺序连接(主要是BCAC连接),不容颠倒,且ABC本身不能重复。但是,在进行语义块构成分析,即进行语义块的对象、内容分解时,三者不仅可以顺序颠倒,而且本身也可以重复。例如,

              <奋战通宵||的张教授>精神||依然很好

这样一句话,属于简明状态句S041J=SB+SC

其中       SC=依然很好

           SB=<奋战通宵||的张教授>精神    

                       SBB       SBC

                 SBBC     SBBB

对于SB来说,如两符号行所示,存在下面等式所表示的对象内容分解

             SB=SBB+SBC=SBBC+SBBB+SBC

简明状态句是汉语最常用的基本句类之一,没有特征语义块,只有两个广义对象语义块。该句类的句类知识约定:SB可包含SBC,但SC不包含SCB。所以,例句两语义块的分界线划在“精神”与“依然”之间,而不是在“张教授”与“精神”之间。在57个基本句类中,语义块之间的分界线需要进一步探讨的,S041J是唯一的句类。所以,这次研讨会上至少有两篇论文涉及到这一句类,希望通过碰撞能有所收益。

本节内容,是理解HNC的关键。以上所说,也许更加难懂,深感没有尽到弥补过失的承诺。现在转到下一个话题,希望有助于难懂度的缓解。

 

    4.2句类表示式及句类知识

表示式HNC21是构成句类表示式的基础,但本身还不是句类表示式。为什么?因为句类表示式必须给出各主语义块排列的顺序,而表示式HNC21并没有规定顺序。基本句类总表所给出的所有表示式都给定了主语义块的顺序,那才是句类表示式。例如上面提到的基本作用句、基本过程句、基本状态句、物转移句、信息转移句、一般反应句、先出交换句、扩展替代句、作用效应句、简明状态句的句类表示式分别是:

      XJ     =  A+X+B

      PJ     =  PB+P

      SJ     =  SB+S

      T2J    =  TA+T2+TB+T2C

      T3J    =  TA+T3+TB+T3C

      X20J   =  X2B+X20+XBC

      T492J  =  TA+T492+T4B2+T4C

      T4a10J  =  T4B1+T4a10+T4B2+T4C

      XYJ    =  A+XY+B+YCYC=(E)+EC

      S041J   =  SB+SC

这些基本句类表示式可统称HNC语句表示式,当然只是HNC语句表示式的一部分,因为还有混合句类和复合句类的表示式。

每一个句类表示式各拥有特定的句类知识,HNC希望把所谓世界知识的精华尽可能纳入到句类知识中,也就是升华到概念层面去表达世界知识。也许可以说,能否实现这一点是能否让计算机理解自然语言的最终“瓶颈”

那么,这个披着神秘“面纱”的句类知识到底包括哪些基本内容呢?拙著中多处有所阐述,这次研讨会上苗传江博士还另有专文,这里仅略举数例。

1:基本作用句XJ的对象语义块B,通常包括3项要素,HNC把他们分别命名为作用对象XB,效应对象YB和效应内容YC,因此,B语义块的一般构成可写成下面的表示式:

        B=XB+YB+YC

这个表示式是基本作用句的句类知识之一,叫做语义块构成知识。对汉语来说,这项知识里还具有一项非常可爱的特性,那就是3项要素的排列顺序一定严格遵守表示式的标示,不容颠倒。在《HNC理论》的p128p339中都曾兴致盎然地谈到这一点,不妨参阅。

2:基本过程句PJPB必须以抽象概念为核心要素,基本状态句SJSB必须以具体概念为核心要素。乔姆斯基先生那有名的、但实际上是带有自嘲意味的句子“无色的绿色思想在狂怒地睡觉”,按句类分析应归于基本状态句,但显然不符合该句类的句类知识,因而其不合理性是很容易判定的。

3:物转移句T2J的转移内容T2C必须以具体概念为核心,而信息转移句T3J的内容T3C必须是抽象概念信息为核心,而且T3C具有块扩特性,即必须扩展为另一语句,否则,只能以指代性短语替换。

4:一般反应句X20J的反应者必须是生命体,首先是人。代表反应引发者及其表现的语义块XBC必须同时包含具体和抽象概念,经常句蜕。如果该语义块仅含有具体或抽象概念,那就意味着省略,而且这一省略必然与某种常识性知识相对应。

5:先出交换句T492J和扩展替代句T4a10J各有3个广义对象语义块,三者之间的关系与其用“双宾语”来描述,不如用“双主语”更贴切,因为两句类的T4C都存在着“易主”现象。

6:作用效应句同信息转移句一样,具有块扩特性,都属于“双谓语”句类。“双谓语”意味着可能需要两个“中心动词”。对于语言中大量存在的句蜕和块扩现象,HNC认为有必要引入下列两组特征语义块“符号对”来加以描述:

      Eg, El       g=globle    l=local 

      Ep, Er       p=premise   r= result

句蜕和块扩现象在印欧语系里由于受到一个中心动词句法规范的影响而比较隐蔽,把这一隐蔽语言现象凸现出来,对于机器翻译和汉语动词兼类现象的处理都大有益处。

7:基本状态句,是无特征语义块的句类之一。西语仅在口语里才偶然使用这种句类,而汉语无论是口语和书面语都大量使用。

以上所述,仅是句类知识的一鳞半爪,更是知识海洋的沧海一粟,但当前的关键不在数量,而在于知识的表示方式是否容易为计算机所掌握或理解。实现知识形式的这一转变,可以说是HNC理论始终追求的唯一目标。“语言概念空间概念基元符号体系”和“语言概念空间语句基元符号体系”的设计都是围绕着这一目标,句类知识的挖掘和积累也是围绕着这一目标。

当然,这里有一系列重大理论问题需要探索,包括:句类知识潜力的评估,句类知识与规则,句类知识的相对性和绝对性,句类知识的客观性和赋予性等。这些本文就不来讨论了。

                                                                               (未完)

原创粉丝点击