【9月16日】中文信息MMT模型

来源:互联网 发布:linux查看hadoop版本 编辑:程序博客网 时间:2024/06/14 04:42

近期读了《自然语言处理的形式模型》一书,为冯志伟老先生的科研精神点赞。致敬。

作者根据依存语法和德国配价语法的精髓,针对N.Chomsky短语结构语法的弱点和汉语语法的特点,在80年代初提出了Multiple branched Multiple labeled Tree analysis,即多叉多标记树形图分析法(有称“中文信息MMT模型”)。

早期的MMT模型提出汉语中的一系列的特征/值系统,用于揭示或者挖掘深层次的语法、语义以及语用信息。在各类特征中,主要分为三类:

  • 静态特征: 词类特征;单词的固有语义特征;单词固有的语法特征。这类特征是直接在字典中可以找到的,为单词的本身固有的特征。
  • 动态特征: 词组类型特征;句法功能特征;语义关系特征;逻辑关系特征。这类特征并不是单词本身固有的特征,而是词之间相互联系之后产生的特征。

以上也称为“双态原则”,这对于自然语言自动处理系统的设计具有指导作用。在实际操作时,计算机先从“字典”中查询静态特征,在静态特征的基础上进一步求解动态特征。下面就这些特征/值进行梳理。

  • 词类特征

    词类是中文句子的基本特征之一,记为CAT。

    CAT值:名词,处所词,方位词,时间词,区别词,数词,量词,体验性代词,谓语性代词,动词,形容词,副词,介词,连词,助词,语气词,拟声词,感叹词。

    为了便于计算机处理,可以将标点符号以及供词各作为一种“类型”。也就是说,CAT可以取20个不同的值。每个特征还可以进行进一步的细分,如形容词可以进一步细分为性质形容词和状态形容词等……

  • 词组特征

    词组类型是描述中文的另一个特征,记为K。

    K值:动词词组,名词词组(包含介词词组),形容词词组,数量词组。

    将介词词组并入名词词组,是因为从信息处理的角度来看,介词词组中的介词,实际上只是它后面的名词词组的功能的一种标志,并入名词词组处理更为方便。

  • 语义特征

    词的语义特征,是指词的语义类别。它表示的是孤立的单词的语义,而不是单词与单词之间的语义。单词的固有语义特征记为SEM。

    SEM可取如下的值和子值。

    物象:其子值为生物,无生物,机关组织,类别名称。

    物资:其子值为设备,产品,原材料。

    现象:其子值为自然现象,人工现象,社会现象,力能现象。

    时空:其子值为时间,空间。

    测度:其子值为数量,单位,标准。

    抽象:其子值为学问,概念,符号。

    属性:其子值为性质,形状,关系,结构。

    行动:其子值为行为,动作,操作。

    这些固有语义特征都标在词典上孤立的词上面,成为单词本身固有的语义属性。冯先生后又从知识本体(ontology)的角度,提出了更加完善的语义分类系统(冯志伟.术语学中的概念系统与知识本体[J].术语标准化与信息化,2006,1.)

  • 语法特征

    孤立的词也是固有语法特征。例如,不同的名词要求不同的量词,因此,带量词特征,就是名词的固有的语法特征;又如,动词有“及物”和“不及物”之分;再如,不同动词的“价”也不同。

    词固有的语法特征记为GRM. 语法特征也可以具有子值。除“及物”之外,对一个对我来说比较新的概念--“价”进行说明。其实这个化学中的化学物的“化合价”有同工之妙。动词的“价”反应的是该动词的语法特征,具体来说: “一价”动词只有一个主语,如“咳嗽”;“二价”动词可以有一个主语和一个宾语,如“写”;“三价”动词可以有一个主语,一个直接宾语和一个间接宾语,如“给”。

  • 句法功能

    中文中词组类型和句法功能没有明确的对应关系。在中文句子的自动分析中,必须注意句法的功能特征,这些特征都是在句子的自动分析中产生的,不是词或者词组的固有特征。

    语法功能记为SF(solo咩?我的SF贼6)。

    SF可取如下值:主语,谓语,宾语,定语,状语,补语,述语,中心语。

  • 语义关系特征

    区别于上述的单词固有的语义特征,语义特征是在计算机自动进行句法语义分析的过程中通过运算得出的。孤立的词没有语义关系,只有两个以上的单词或者词组才会产生语义关系。

    语义关系特征记为SM。

    SM可取值:主体者,对象者,收益者,时刻,时段,时间七点,时间终点,空间点,空间段,空间起点,空间终点,初态,末态,原因,结果,目的,工具,方法,条件,内容,范围,比较,伴随,程度,附加,修饰等。当然还可以继续细分。

  • 逻辑关系

    如果把句子看成一个命题逻辑,那么命题逻辑与它的各个论元之间还存在着逻辑关系。由于逻辑命题的各个论文在句子中是由句子中的词或者词组来充当的,故这些词或者词组就存在逻辑关系。这种关系就是N.Chomsky所说“题元关系”。

    逻辑关系记为LR.

    LR可取值:

    论元0:它是句子的深层主语;

    论元1:它是句子的深层直接宾语;

    论元2:它是句子的深层间接宾语。

    每一个论元起且仅起一个题元的作用。