读《统计自然语言处理》——语料库与知识词汇库

来源：互联网发布：李斯特改编知乎编辑：程序博客网时间：2024/04/19 08:02

统计自然语言处理的主要需求包括计算机、语料库和软件。

基础知识：

1、计算机：文本语料库通常都比较大，处理大量的文本需要相当多的计算资源。在早期的处理中，这是限制语料库运用的主要原因。统计自然语言处理方法不仅需要大量的空间来存储语料，而且经常需要从语料中收集大量的统计信息，所以要求计算机有比较快的存取速度。因此需要一台硬盘足够大，内存足够多的计算机。

2、语料库：一个语料库时按照某种标准收集的特殊文本材料。在文本分类中，一个系统的性能会由于时间关系极度恶化，因为某一时刻抽取出来用于训练的样本经过一年或者两年后就失去了原本的代表性。语料库是不是人们感兴趣的典型样本是这里的主要问题。如果我们从一个样本中得出的结论同样适用于一般对象，就可以说这个样本是典型的。这里还需要提到一个平衡语料库的概念。

3、软件：真正需要的软件就是简单的文本编辑器和某种编程语言的编译器或者解释器。除此之外，还会可能经常用到其他工具软件，例如在语料库中进行搜索的软件。

语料库包含一定篇目（语篇），每篇篇目包含一定量的词汇。分类如下“：

语种：单语种语料库，多语种语料库；

记载媒体：单媒体语料库，多媒体语料库；

地域：国家语料库，国际语料库；

以语料库代表性和平衡性为主要区分依据的：平衡语料库，平行语料库；平衡语料库是按照事先确定好的某种重要标准，把每个子类的文本按照一定比例收集到语料库。在统计自然语言处理中，通常把感兴趣的某个领域的大量数据收集起来作为语料库，不管这些数据是怎么构造的。

平衡性好坏取决于语料库中语料的使用度是否可以真实反映语言使用情况。平行型表现为语料选取的时间、对象、比例、文本数、文本长度等几乎一致（一般用于机器翻译）。

以语料库用途为主要区分依据的：通用语料库，专用语料库；（二者是相对的）

以语料分布时间为主要区分依据的：共时语料库，历时语料库；

按照索绪尔的观点，共时研究是研究大树的横断面所见的细胞和细胞关系，即研究一个共时平面中的元素与元素的关系，例如中国五地语料库（大陆、香港、澳门、台湾、新加坡）。

按照索绪尔的观点，历时研究是研究大树的纵剖面所见的每个细胞和细胞关系的演变，即研究一个历时切面中元素与元素关系的演化。

以语料库内容加工程度划分的：生语料与标注语料库；

生语料是指没有经过任何加工处理的原始语料数据。

标注语料库是指经过加工处理、标注了特定信息的语料库。标注是把某个分类代码插入到一个计算机文件中，这种分类代码通常并不是文件的组成部分，但是通过这些分类代码，我们可以了解文件的结构或格式信息。人类语言中的许多yuo使得文本自动处理相当困难，即使是低水平的自动处理也很困难。

1、低级格式问题：由于语料库的来源复杂，语料中可能存在无法处理的各种各样的格式或内容，他们是没有用处的，需要过滤掉。

2、标记化：什么算是一个词

标记化是把输入文本切分成词次的单位，词次可以是一个词，一个数字或者是一个标点符号。

3、词法：词干化就是一个去除词缀只留词干的过程。从信息检索得来的结果并不需要应用到某一个或者全部的统计自然语言处理应用中去，它甚至不需要应用于所有的信息检索，词法分析也许在其他应用中更加有用。词干化对于信息检索系统中无相互影响的评估不起作用。

4、句子：句子分隔

数据标注：

标记文本结构可以有各种不同的方案。如何设计标注集是数据标注的难点问题，更精确的可以认为是选择什么特征来设计标注集。一个标注集同时依据分类目标特征和预测特征来进行编码。其中分类目标是告诉用户一个词的语法类别的有用信息，预测特征是对预测上下文中其他词语特性有用的特征。

目前位置，最常用的也是被推荐最多的标注形式是SGML。而标注的目的是为了更好的分析文本的内容，文本一般都是进行语法标注，标注文本内容中语法的结构。比较出名的标注集有美国brown语料库中适用的标注集，成为Brown标注集，还有Penn树库。

一个语料库具有代表性是指在改了语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性；

假设已知“打”有buy（~酱油，~饭）和knit（~毛衣，~围巾）两个意思，那么如何知道“打手套”中的“打”是什么意思呢？可以通过计算“手套”和“饭”、“毛衣”等词的语义距离的计算结果进行判定。

0 0