笔记:自然语言的计算机处理

来源:互联网 发布:极限矩阵是海尔的吗 编辑:程序博客网 时间:2024/06/12 00:03

冯志伟 

上海外语教育出版社(1996)

现代语言学丛书

ISBN 7-81046-036-6

TP 391 816.1

 

前言

P3 自然语言处理(Natural LanguageProcessing,简称NLP)就是利用电子计算机为工具对人类的书面形式和口头形式的自然语言的信息进行各种类型的处理和加工的技术,这种技术现在已经形成一门专门的边缘性交叉性学科,它涉及语言学、数学和计算机科学,横跨文科、理科和工科三大知识领域。……自然语言处理的目的在于建立各种自然语言处理系统。

 

P5 自然语言起码在下面4个当面与人工语言大相径庭:
1、自然语言中充满着歧义,而人工语言中的歧义则是可以控制的;
2、自然语言的结构复杂多样,而人工语言的结构则相对简单;
3、自然语言的语义表达千变万化,迄今还没有一种简单而通用的途径来描述它,而人工语言的语义则是可以由人来直接定义;
4、自然语言的结构和语义之间有着千丝万缕的、错综复杂的联系,一般不存在一一对应的同构关系;而人工语言则常常可以把结构和语义分别进行处理,人工语言的结构和语义之间有着整齐的一一对应的同构关系。

 

正文

 

P8乔姆斯基定义了0型语法、上下文无关语法、上下文有关语法和正则语法4种类型的形式语法。其中上下文无关语法又叫做短语结构语法(phrasestructuregrammar,简称PSG)。……但是,人们不久就发现,短语结构语法的生成能力过强,往往会生成大量的不合语法的句子。……于是他提出装换语法来克服短语结构语法的这些弱点,后来转换语法逐渐发展成为转换生成语法。……由于短语结构语法结构清晰,易于操作,计算语言学的学者们抛弃了转换生成语法,又转向了短语结构语法,于是出现了各种增强的短语结构语法。例如,受限语言(restrictedlanguage)和扩充转移网络(augemented transitionnetwork,简称ATN)。受限语言的表层结构分析和深层结构分析是分别进行的,而ATN的表层结构分析和深层结构分析则是同时进行的。

 

P10不论哪一种自然语言处理的语法,其最根本、最关键的问题,是要指出各种语言形式出现和变换的条件。只有指出了条件,计算机才可能根据有关的条件,执行相应的动作,从而使整个系统成为一个可以动态地执行的过程。

 

P11 总而言之,计算机的任何操作,归根结底,可以归纳为一个公式:

条件→动作

……

由于汉语中单词或词组的种类与它们的句法功能之间没有明确的对应关系,所以,在汉语的自然语言处理中,认真研究现代汉语的各种“条件—动作”偶对,就显得更加重要了。(按:下面举了一个“把”字句的例子)

 

P13描写语言现象是完全必要的,而且这是语言研究不可或缺的第一步。如果不详细地占有语言材料,不从各个方面、各个角度来描写语言现象,当然也就谈不上对语言现象的解释,语法研究就有如做无米之炊。

 

P14只能活动可以分解为一系列最基本的单位,这些基本单位可以归结为两种:1、根据某种环境采取某种动作;2、根据某一前提作出某种结论。

 

P17定子句语法是瓦楞(D.Warren)和佩瑞拉(F.Pereira)于1980年提出的一种仅仅使用短语结构语法规则的逻辑语法。定子句语法的基本思想是:语法中所使用的符号不仅仅是原子符号,还可以是广义的逻辑项。例如,短语结构语法的规则

Sentence==>noun-phrase,verb-phrase

表示一个句子由名词短语和动词短语两部分组成,在定子句语法中,同样的这个规则可以表示:如果存在一个名词短语和一个动词短语,那么,就存在一个句子的推理过程[O1] 

 

P18 在逻辑程序设计中,提出了所谓的“霍恩子句”(Hornclause)。霍恩子句就是一种至多只含有一个正文字的短句。正文字是为原子公式的文字,因此,在霍恩子句中,至多只含有一个为原子公式的文字。这个为原子公式的文字一般写在霍恩子句的左部。霍恩子句的形式为:

P:Q1,Q2,… Qn

其中,P是正文字,即原子公式的文字,Q1,Q2,…Qn都不是正文字。

霍恩子句逻辑意义清晰、形式简明,给程序设计带来很大的方便。从逻辑程序设计的观点来解释,可把霍恩子句看成是左部至多含有一个谓词的规则。例如,上面的定子句语法规则用霍恩子句可写为:

sentence(S0,S):noun-phase(S0,S1),verb-phrase(S1,S)

这里,S0 ,S1,S为字符串的指针。这个霍恩子句可以解释为:如果S0到S1之间是一个名词短语,S1到S之间是一个动词短语,那么,S0和S之间就是一个句子。

 

P24 (按:自然语言处理下对索绪尔语言体系的冲击)

他(索绪尔)提出的语言符号的第2个特征——能指的线条性就未必是正确的了。……英国著名语言学家弗斯(J.K.Firth)提出“跨音段论”(prosodic),他认为,在一种语言里,区别性语音特征不能归纳在一个音段位置上,例如,语调就不是处于一个音段位置上,而是处于前后相序的线条性的音段之外,笼罩着或管领着整个句子的东西。

 

P24……我们觉得,语言符号除了索绪尔所指出的那两个不尽完善的特点之外,还有着以下7个十分引人注目的特点。

1.  语言符号的层次性

P26一般地说,如果要判断两个语言片段A=a1a2···an和B=b1b2···bm是否具有同一性,至少应该满足3个条件:

(1)      A和B中对应的词形相同,词数相同。即有a1=b1,a2=b2,···,an=bm,且n=m。

(2)      A和B中的词序相同。即:如果有a1==>a2,···,an-1==>an,那么,则有b1==>b2,···,bm-1==>bm。其中“==>”表示前于关系。

(3)      A和B中各个词之间的层次结构相同。

索绪尔主张语言符号具有线条性,他只看到了第(1)条和第(2)条,而没有看到第(3)条。

       

P26树形图与自然语言处理中广为应用的短语结构语法有着明显的对应关系。乔姆斯基的短语结构语法,既能描述自然语言,也能描述程序设计语言。短语结构语法可定义为一个四元组G=(VN,VT,S,P),其中VN是范畴符号的集合,VT是单词符号的集合,S是初始符号,P是重写规则。P的规则形式为A→ω,A是VN中的单个符号,ω是非空的符号串。如果有某个树形图满足下列条件,它就是短语结构语法G的推导树:

(1)      每一个结点有一个标记,这个标记是VN∪VT中的符号;

(2)      根的标记是S;

(3)      如果结点n至少有一个异于其本身的后裔,并有标记A,那么,A必定是VN中的符号;

(4)      如果结点n1n2,···,nk是结点的直接后裔,从左到右排列,其标记分别为A1A2,···,Ak,那么,A→A1A2,···,Ak必定是P中的重写规则。

 

2.  语言符号的非单元性

P27这种语法(按:短语结构语法)分析能力不高,分析时难于处理歧义等自然语言中普遍存在的问题……生成能力过强,往往会生成许多歧义句子或不合语法的句子……引起这些缺陷的结症在于,短语结构语法是采用单标记来描述语言符号的,它把语言符号看成是不可分割的原子式的单元;如果把语言符号看成是可以分割的非单元性的东西,采用多标记函数或者复杂特征来描述,便可以从根本上克服短语结构语法的上述缺陷……

 

P29 物理学中关于物质具有粒子结构的观点,音位学中关于音位由12对基本点区别特征组合而成的观点,自然语言处理中关于语言符号由多个标记组合而成的观点,它们之间是何等的相似!客观世界中存在着的这种相似现象,说明了这些现象之间是有内在联系的……

 

P30自然语言处理还提出了非单元性的这种“复杂特征”进行运算的数学方法——“合一”运算……合一运算具有两种作用:

(1)      合并原有的特征信息,构造新的特征结构,这与集合论中的“求并”运算类似。

(2)      检查特征的相容性和规则执行的前提条件,如果参与合一的特征相冲突,就立即宣布合一失败。

 

3.  语言符号的离散性

P30我们平时说话时的语流似乎是连续不断的,但在实际上,这些连续不断的语流却是由许多离散的单元所组成的。在水平方向上,语流可以被分解为若干段落,一个段落又可以被分解为若干句子,一个句子又可以被分解为若干短语,一个短语又可以被分解为若干单词,一个单词又可以被分解为若干语素,一个语素又可以被分解为若干音节,一个音节又是由若干个元音和辅音音位组合而成的。在竖直方向上,语流中的各个成分又可引起联想,引出与之属于同一聚类的若干个离散单元来。所以,在连续语流的水平方向和竖直方向上,实际上都是与若干个不同的离散单元联系着的。

语言符号的这种离散性,在语流的停延时表现得特别明显,人们往往可以利用语流停延的这种离散性质,来区别语流的不同含义。

 

P31美国语言学家朱斯(M.Joos)早就指出了语言符号的这种离散性。他说:“数学研究工具一般具有两种类型:连续分析(例如,无限小量的计算)”或离散分析(例如,有限群论),而可以称为语言学的那个部门则是属于后者,这时,它不容许与连续性有半点儿妥协,因此,凡是与连续性有关的一切,都得排除于语言学之外。语言学的范畴是绝对的,是不容许任何妥协的。”……他提出用离散数学来研究语言。

 

P32朱斯关于语言符号离散性的论述似乎有点儿矫枉过正。……在语言的使用的交际过程中,我们强调语言符号的连续性,用连续数学的方法来研究它;在语言结构的分析中,我们强调语言符号的离散性,用离散数学的方法来研究它,而语言本身则是离散性和连续性的统一体。


 [O1](在自底向上剖析技术中有这种思想)

原创粉丝点击