自然语言处理中的一些概念

来源：互联网发布：淘宝产品定价方法编辑：程序博客网时间：2024/05/18 00:53

一、概念

1. 语言学方面

语法学：研究句子结构成分之间的相互关系和组成句子序列的规则。

语义学：研究如何从一个语句中词的意义，以及这些词在该语句中句法结构中的作用来推导出该语句的意义。

语用学：研究不同上下文中语句的应用，以及上下文对语句理解所产生的影响。

2. 信息论方面

相对熵（简称KL距离）：衡量两个相对随机分布的差距。

交叉熵：衡量估计模型与真实概率分布之间的差异情况。

困混度：代替交叉熵衡量语言模型的好坏。

混乱度：熵越大，混乱度越高，说明分布越统一。

噪声信道模型：目标是优化噪声信道中信号传输的吞吐量和准确率，输出以一定概率依赖于输入。

3. 概率论方面

涉及到概率、极大似然估计、条件概率、贝叶斯法则、随机变量、二项分布、联合和条件概率分布、贝叶斯决策理论、期望和方差等等。

4. 其他

信息抽取：把信息从不同文档中转换成数据库记录的系统，提取指定信息而不是查找。

信息检索：只找出满足检索条件的整片文档或段落，而后人必须阅读去查找（由人阅读、理解、提取）。

附：信息抽取和信息检索的区别：

功能不同，前者得到的是文档列表，后者直接获得事实信息；

处理技术不同：前者用统计和关键词匹配的方法，后者使用自然语言处理相关技术，分析处理句子篇章。

使用领域不同：前者与领域无关的，任何领域均使用；后者是领域相关的，只能抽取系统预先设定的有限种

类的事实信息。

二、分类

1. 语料库

按内容构成和目的划分：异质的和同质的、系统的和专用的

按语言种类分：单语的、多语的

其他：平衡语料库和平行语料库、共时语料库和历时语料库

2. 汉语分词常见歧义

交叉歧义：AB||C 或 A||BC

组合歧义

3. 模型分类

基于统计的：

布尔模型：自动生成布尔表达式，共现频率高用AND。

扩展模型：比较文档索引项和表达式相似度

向量空间模型：考虑项的选取和权重评价方法。

概率模型

基于语义的：

潜在语义索引模型、神经网络

基于集合理论的：

布尔模型、扩展模型、基于模糊集的模型

基于代数理论：

空间向量模型、潜在语义索引模型

基于概率统计理论的：

二元独立模型、推理网络模型、信度网络模型（指文档对检索的覆盖程度）、贝叶斯网络模型

三、方法总结

1. 自然语言处理的方法

基于规则的方法：形式语言、语法理论、词法理论、推理方法等。（理性主义流派：基于chomsky的语言原则）

基于统计的方法：语言模型、HMM、机器学习、搜索算法等。（经验主义流派：基于shannon的信息论）

2. 汉语自动分词方法

有词典切分：最大匹配法（正向、逆向、双向）、最少分词法（也叫最短路径法）

无词典切分

基于规则的方法

基于统计的方法

3. 文本分类的方法

基于统计的：朴素贝叶斯、KNN、类中心向量、回归模型、支持向量机、最大熵。

基于连接的：人工神经网络

基于规则的：决策树、关联规则

4. 向量空间模型中的特征选择方法

文档频度DF、信息增益IG、互信息MI、卡方统计量等。

5. 数据平滑（“劫富劫贫”）的方法

加一法、减值法、Good-Turing估计、Back-off（后备/后退）方法、绝对减值法、线性减值法、删除插值法。

6. 词义消歧方法

基于互信息、基于贝叶斯判别、基于词典释义、基于义类词典、基于判定表。

7. 句法分析方法

传统非概率方法和概率方法、完全句法分析和部分句法分析、自顶向下分析（基于预测）和自底向上（基于归约）分析、确定性和非确定性分析等。

8. 文本聚类的方法

（1）基于划分的：通过迭代把数据对象划分到不同的簇中，以求目标函数最小化，从而使生成的簇尽可能的紧凑和独立。（局部最优，改进：调整K，调整初始聚类中心，用类核代替类心）。

K-means、K中心点算法

（2）基于层次的：进行层次分解。

层次聚类：递归实现

会聚层次聚类：设定相似度函数（一般用文本向量的余弦相似度），重复合并最相似的类别，合并过程成层次结构。

会聚聚类：以每个样本独自一类开始，迭代合并到越来越大的类中。

分裂聚类：将所有样本不断划分到类别中，不需要实现判定类别，需要终止条件。

平均连通凝聚聚类：又分为单连通、全连通、两者折中。

（3）基于密度的：只要临近区域的密度超过一定的阈值，就继续聚类，可过滤噪声和孤立点，发现任意形状的类。

（4）基于网格的：将样本空间量化为有限数目的单元，形成一个网络结构，在其上进行聚类操作。

（5）基于模型的：为每个类假定一个模型，寻找数据对给定模型的最佳拟合。

9. 相似度计算方法

最近成员的相似度：sim((i,j),k)=max(sim(i,k),sim(j,k))

最远成员的相似度：sim((i,j),k)=min(sim(i,k),sim(j,k))

成员间平均相似度