（笔记）统计自然语言处理基础第1章绪论

来源：互联网发布：途宝网络如何设置编辑：程序博客网时间：2024/04/29 02:59

（笔记）统计自然语言处理基础第一章

前言部分

为了解释语言的结构，人们设计了一些规则来将语言表达结构化。这些语法法则变得日趋正式和严格，试图描述什么是正确的和不正确的语言表达。然而，这种方式一个明显的缺陷是：对于正确的语言表达，无法给出一个精确并且完备的规则体系。

（因为认知是变化的，语言是认知的体现，因此也是变化的。同时，由于各种语法、词汇的相互组合、搭配，导致将正确的表述规则穷举变得不可能。）

统计语言学则是通过计数，即统计方法识别语言使用中通常出现的形式。

1.1 理性主义者和经验主义者的方法

理性主义方法（rational approach）：这是一种信仰，认为人类头脑中重要的知识不是感官得到的，而是提前固定在头脑中，由遗传基因决定的。在人工智能领域，理性主义者试图建立一个智能系统，希望通过手工编码大量的先验知识和推理机制，得到复制人类大脑的语言能力。

依据：刺激缺乏（poverty of the stimulus）问题——认为孩子们在幼年时听到的语言是有限输入，认为从中学到自然语言这样复杂的东西是非常困难的。理性主义假定语言的关键部分是天生的。

经验主义方法：同样假设大脑中存在某些认知的能力，但是与理性主义的区别在于，理性主义认为大脑存在某些原始结构（具有关键语言知识），经验主义认识大脑中存在某种结构，可以从感官输入的信息中组织和产生语言。主要突破在于认为人类的智能不是开始于细化的规则集，也不是开始于针对各种各样语言结构和其他感知领域的程序集。在人工智能方面，经验主义方法认为可以通过一个适当的语言模型，学习复杂和广泛的语言结构，通过把统计学、模式识别和机器学习的方法应用于大规模的语言使用例子，可以获得模型的参数。

依据：认为婴儿的大脑最初具有联想、模式识别和概括的一般能力，这些能力可以通过丰富的感官输入学习得到。

实际中，人们简单的研究文本（而不是大规模的语言实例），并且把文本中的上下文关系作为现实世界中语言上下文关系的替代品（即统计中，用样本去估计总体的思想）。

1.2 科学内容

   人们对语言的使用形式的频率感兴趣是有清晰和毋庸置疑的科学原因。也就是统计学是研究语言的一种方法。

1.2.1 统计学需要回答的问题

1、人们说的话是什么

2、话语对应着现实世界的对象是什么

第一个问题涉及了语言结构的所有问题，是属于语料库语言学的研究范畴。我们研究一个词，可以通过这个词的使用模型作为替代品，通过对应的模型来研究词的语义和语用。第二个问题，则可以利用基于语料库的技术来处理。往往语料库中含有的语言模型更容易揭示语言的句法结构，因此，统计自然语言的主要工作就是解决第一个问题。

1.2.2 语言中的非绝对现象

语言的变化包括词汇的变化和语法的变化。词汇会改变本身的含义和词性。这也印证了理性主义的绝对性假设是错误的。

1.2.3 语言和认知是随机现象

把概率作为理解语言的一种科学方法的最基本论点认为，人类的认知是随机的，因此语言也必须是随机的，因为它是认知的一个完整部分。

书中推崇的观点是，复杂的概率模型可以像一个复杂的非概率模型一样解释问题，并且还带有更多的有点，它们可以解释在认知中和实际的语言中经常出现的不确定的、不完整的现象。

自然语言处理的观点是，句子的意思包含在话语上下文的字里行间。

1.3 语言中的歧义问题是自然语言难以处理的原因

自然语言处理自动从语料库中学习词汇和结构偏向性信息，以此来探寻解决歧义问题。因为不单独使用句法的类来分析，而是利用大量词汇间的关系信息，可以更深入的反映语义关系。而且，统计模型具有鲁棒性和概括性，在含有错误的数据和新数据中性能优异。

1.4 一手资料

1.4.1 词汇资源

著名的语料库：Brown语料库（知名度最高，收费）、Susanne语料库（Brown语料库子集，免费）、“The Canadian Hansards”（加拿大会议议事录，最著名的双语语料库）、WordNet（词网）

1.4.2 词的计数

词次（word token），文本中单词总共出现的次数，同一单词多次出现，则多次计数，衡量文本的篇幅。

词形（word type），文本中出现多少个不同的单词，同一单词多次出现，仅记1次，衡量文本的词汇量。

token对type的比值，得到每个type在文本中出现的平均次数。

自然语言处理中最主要的问题是，词汇的出现次数非常不平均。常用词出现次数将近一半，换句话说，大部分词汇出现的次数是非常小的。因此，自然语言处理面临的最大困难是：对于语料库中没有出现或者几乎不出现的词，我们很难预测它们的行为。

1.4.3 Zipf法则

Zipf法则，即最小精力付出原理（least effort），认为人类会尽可能最小化他们的平均工作率。目的是揭示语言中某些概率分布。

如果统计在大型语料库中所有词汇出现的频率f，并且从大到小排序，得到对应词汇的序号r，那么Zipf法则可以表示为：

也就是存在一个常数k，使得

实际上，我们并不会把这中关系看做一个法则，而是作为某些试验事实的一个比较粗糙的特性。这里可以容易的理解最小精力付出原理。也就是说，说话者希望用最少（类型，word type）来表述自己的话语（不需要记住太多的词汇即可表述自己的意思，付出少，同时导致同一个常用词大量使用，这是从说话者或者文章作者角度考虑的最小精力付出）；而从听话者（信息接收者的角度），希望用更多的词汇来理解说话者的意思（听话中是信息的接受者，精力主要付出在理解信息，如果说话者用更多的词汇可以减少歧义）。这两个矛盾导致要完成一次对话（信息的传递），词汇的频率与位置就具有近似的关系式。

Mandelbrot（1954）对Zipf法则做了深入的研究和推导，得到更加接近词汇经验分布的结果，给出一个更一般的排列和出现次数的关系：