自然语言处理-从规则到统计

来源:互联网 发布:彩票通软件下载 编辑:程序博客网 时间:2024/05/19 03:43

1.总述

人类对机器理解语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。直到20多年后,人们开始尝试用基于统计的方法进行自然语言处理,才有了突破性的进展和实用的产品。


2.前文回顾

上一篇讲到,语言的出现是为了人类之间的通信。字母(或者中文的笔画)、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。而如果对方懂得这门语言,他或者她就可以用这门语言的解码方法获得说话人要表达的信息。这就是语言的数学本质。虽然动物也能做到传递信息,但是利用语言来传递信息是人类的特质。                     
                         编码                        解码

信息(信息源)------>信息(信道)------->信息(接收者)


3.两个问题

a.计算机能否处理自然语言?

b.如果能,那么它处理自然语言的方法是否和人类一致?

对这两个问题,答案都是肯定的。


4.机器智能

a.图灵测试(Turing Test)

让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。


b.弯路阶段

从20世纪50年代到70年代,是科学家们走弯路的阶段,全世界的科学家对计算机处理语言的认识都局限在人类学习语言的方式上,也就是说,用电脑模拟人脑(“鸟飞派”),这20多年的成果近乎为零。


c.第二阶段

直到20世纪70年代,一些自然语言处理的先驱开始重新认识这个问题,找到了基于数学模型和统计的方法,自然语言处理进入第二个阶段。30多年来,这个领域取得了实质性的突破,自然语言处理也在很多产品中得到广泛应用。今天,机器翻译和语音识别已经做得不错,并且有上亿人使用过,但是这个领域之外的大部分人已然错误地以为这两种应用是靠近计算机理解了自然语言才实现的。事实上,它们全都靠的是数学,更准确地说是靠统计学。


5.理解自然语言

a.分析语句和获取语义

应用层  语音识别  机器翻译  自动回答  自动摘要

认知层  自然语言理解

基础层  句法分析  语义分析


b.从规则到统计

在上个世纪70年代,基于规则的句法分析(包括文法分析或者语义分析)很快走到了尽头。而对于语义的处理则遇到了更大的麻烦。

首先,自然语言中词的多义性很难用规则来描述,而是严重依赖于上下文,甚至是常识。

第二点,也很有意思,用基于统计的方法代替传统的方法,需要等原有的一批语言学家退休。

1970年以后统计语言学家的出现使得自然语言处理重获新生,并取得了今天非凡的成就。推动这个技术路线转变的关键人物是贾里尼克和他领导的IBM华生实验室。最初,他们也没有想解决整个自然语言处理的各种问题,而只是希望解决语音识别的问题。采用基于统计的方法,IBM将当时的语音识别率从70%提升到90%,同时语音识别的规模从几百单词上升到几万单词,这样语音识别就有了从实验室走向实际应用的可能。


6.小结

基于统计的自然语言处理方法,在数学模型和通信是相通的,甚至是相同的。因此,在数学意义上自然语言处理又和语言的初衷-通信联系在一起了。但是,科学家们用了几十年才认识到这个联系。


0 0
原创粉丝点击