自然语言处理中的一些概念

来源:互联网 发布:淘宝产品定价方法 编辑:程序博客网 时间:2024/05/18 00:53

一、概念

1. 语言学方面

     语法学:研究句子结构成分之间的相互关系和组成句子序列的规则。

     语义学:研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。

     语用学:研究不同上下文中语句的应用,以及上下文对语句理解所产生的影响。

2. 信息论方面

     相对熵(简称KL距离):衡量两个相对随机分布的差距。

     交叉熵:衡量估计模型与真实概率分布之间的差异情况。

     困混度:代替交叉熵衡量语言模型的好坏。

     混乱度:熵越大,混乱度越高,说明分布越统一。

     噪声信道模型:目标是优化噪声信道中信号传输的吞吐量和准确率,输出以一定概率依赖于输入。

3. 概率论方面

      涉及到概率、极大似然估计、条件概率、贝叶斯法则、随机变量、二项分布、联合和条件概率分布、贝叶斯决策理论、期望和方差等等。

4. 其他

     信息抽取:把信息从不同文档中转换成数据库记录的系统,提取指定信息而不是查找。

     信息检索:只找出满足检索条件的整片文档或段落,而后人必须阅读去查找(由人阅读、理解、提取)。

        附:信息抽取和信息检索的区别:

               功能不同,前者得到的是文档列表,后者直接获得事实信息;

               处理技术不同:前者用统计和关键词匹配的方法,后者使用自然语言处理相关技术,分析处理句子篇章。

               使用领域不同:前者与领域无关的,任何领域均使用;后者是领域相关的,只能抽取系统预先设定的有限种

        类的事实信息。

二、分类

1.  语料库

     按内容构成和目的划分:异质的和同质的、系统的和专用的

     按语言种类分:单语的、多语的

     其他:平衡语料库和平行语料库、共时语料库和历时语料库

2. 汉语分词常见歧义

     交叉歧义:AB||C  或 A||BC

     组合歧义

3. 模型分类

    基于统计的:

           布尔模型:自动生成布尔表达式,共现频率高用AND。

           扩展模型:比较文档索引项和表达式相似度

           向量空间模型:考虑项的选取和权重评价方法。

           概率模型

   基于语义的:

          潜在语义索引模型、神经网络

   基于集合理论的:

         布尔模型、扩展模型、基于模糊集的模型

   基于代数理论:

         空间向量模型、潜在语义索引模型

   基于概率统计理论的:

         二元独立模型、推理网络模型、信度网络模型(指文档对检索的覆盖程度)、贝叶斯网络模型

三、方法总结

1. 自然语言处理的方法

    基于规则的方法:形式语言、语法理论、词法理论、推理方法等。(理性主义流派:基于chomsky的语言原则)

    基于统计的方法:语言模型、HMM、机器学习、搜索算法等。(经验主义流派:基于shannon的信息论)

2. 汉语自动分词方法

    有词典切分:最大匹配法(正向、逆向、双向)、最少分词法(也叫最短路径法)

    无词典切分

    基于规则的方法

    基于统计的方法

3. 文本分类的方法

     基于统计的:朴素贝叶斯、KNN、类中心向量、回归模型、支持向量机、最大熵。

     基于连接的:人工神经网络

     基于规则的:决策树、关联规则

4. 向量空间模型中的特征选择方法

    文档频度DF、信息增益IG、互信息MI、卡方统计量等。

5. 数据平滑(“劫富劫贫”)的方法

     加一法、减值法、Good-Turing估计、Back-off(后备/后退)方法、绝对减值法、线性减值法、删除插值法。

6. 词义消歧方法

    基于互信息、基于贝叶斯判别、基于词典释义、基于义类词典、基于判定表。

7. 句法分析方法

      传统非概率方法和概率方法、完全句法分析和部分句法分析、自顶向下分析(基于预测)和自底向上(基于归约)分析、确定性和非确定性分析等。

8. 文本聚类的方法

  (1)基于划分的:通过迭代把数据对象划分到不同的簇中,以求目标函数最小化,从而使生成的簇尽可能的紧凑和独立。(局部最优,改进:调整K,调整初始聚类中心,用类核代替类心)。

         K-means、K中心点算法

  (2)基于层次的:进行层次分解。

           层次聚类:递归实现

          会聚层次聚类:设定相似度函数(一般用文本向量的余弦相似度),重复合并最相似的类别,合并过程成层次结构。

          会聚聚类:以每个样本独自一类开始,迭代合并到越来越大的类中。

          分裂聚类 :将所有样本不断划分到类别中,不需要实现判定类别,需要终止条件。

          平均连通凝聚聚类:又分为单连通、全连通、两者折中。

  (3)基于密度的:只要临近区域的密度超过一定的阈值,就继续聚类,可过滤噪声和孤立点,发现任意形状的类。

  (4)基于网格的:将样本空间量化为有限数目的单元,形成一个网络结构,在其上进行聚类操作。

  (5)基于模型的:为每个类假定一个模型,寻找数据对给定模型的最佳拟合。

9. 相似度计算方法

    最近成员的相似度:sim((i,j),k)=max(sim(i,k),sim(j,k))

    最远成员的相似度:sim((i,j),k)=min(sim(i,k),sim(j,k))

    成员间平均相似度

原创粉丝点击