规则和统计（下）

来源：互联网发布：bj单身日记知乎编辑：程序博客网时间：2024/06/06 13:59

1988年，IBM的彼得·布朗等人提出了基于统计的机器翻译方法，框架是对的，但是效果很差，因为当时没有足够的统计数据，也没有足够强的模型来解决不同语言语序颠倒的问题。在很长一段时间里，传统方法支持者攻击对方的武器就是，基于统计的方法只能处理浅层的nlp问题，无法进行深层次的研究。

从20世纪80年代末到现在，随着计算能力提高和数据量的爆发，过去看似不可能通过统计模型完成的任务，渐渐变得可能了。到20世纪90年代末期，大家发现通过统计得到的句法规则甚至比语言学家总结的更有说服力。2005年以后，随着Google基于统计方法翻译系统全面超过基于规则方法的SysTran翻译，基于规则学派固守的最后一个堡垒被拔掉了。nlp的应用在过去30年里也发生了巨大的变化，比如对自动问答的需求在很大程度上被网页搜索和数据挖掘替代了。而新的应用越来越依靠数据的作用和浅层的nlp的工作，这在客观上大大加速了nlp研究从基于规则的方法到基于统计的方法的转变。今天，几乎不再有科学家自称是传统的基于规则方法的捍卫者。而nlp的研究也从单纯的句法分析和语义理解，变成了非常贴近实际应用的机器翻译、语言识别、数据挖掘和知识的获取等。

基于统计的nlp方法，在数学模型上和通信是相通的，甚至就是相同的。因此，在数学意义上nlp又和语言的初衷—通信联系在一起了。可惜科学家花了几十年才认识到这个联系。

0 0