统计自然语言处理(词法)

来源:互联网 发布:三国群英传7Mac 编辑:程序博客网 时间:2024/06/07 01:00

概念介绍

 语法可分为词法和句法 词法 词法,即运用词语必须遵循的一般语法规则。所谓“一般语法规则”,即人们约定俗成并为人们广泛认可和应用的语言文字的规范。在《词语的运用》一讲中我们已经进过,词语是具有实在意义并能独立运用的最小的语言单位。因此,我们学习任何一种语言,都必须从学习词语开始,首先应该学一点词法的基本知识。接下来,我想择其要讲两个问题:词语的构词方式,词类和词的兼类。——百度文库 句法 现代汉语句法的主要内容包括,句子的基本结构、句子的类别、句子的表达形式三个方面。 句子的基本结构也叫基本成分,包括主语、谓语、宾语、定语、状语、补语六种成分。其中的主语、谓语、宾语是主要成分,定语、状语、补语是附加修饰成分。而主语和谓语是句子的必要成分,缺一则不能成为句子。 句子按其结构的繁简可分为两大类:单句和复句。单句又细分为一般单句和复杂单句两类。复句也可细分为一般复句和多重复句两类。 按句子的表达作用的不同,可以把句子不同的表达形式归为四大类:陈述句、疑问句、祈使句、感叹句。

搭配

这里本来写的很详细的,但是这个csdn上的自动保存并没有起作用,我一刷新啥都没了,不写了。总结一下好了。

频率

根据词语之间的频率来表示,词语的组成,需要考虑一些常见词语的影响。有一些‘的’、‘了’之类的词语会掺杂进来。所以需要加入频率过滤器。如下:
这里写图片描述
过滤后结果如下
这里写图片描述
对于中文来说,有以下两个应用:
1.字组成词语
2.词语组成复合短语

均值方差

存在一些不非固定位置的短语,如knock door -> knock the door / knock on the door等,所以需要加一个窗口来统计词语频率、均值、方差。并利用这些特性来反映特征。虽然这在严格意义上可能并不算短语或者词组,但是对于文本生成或者自己某些特定应用上是有很好的实用价值的。
这里写图片描述

假设检验

我们掩盖至今的一个难题是,高频率和地方也可能是偶然出现的。比如中文中的“你的”。我们除了可以利用停词来去除这些例子以外,我们还有一些统计学的方法来排除这些情况。我曾经做过这样的中文统计分词,当时我采用了一个我自称凝结度的统计量:拼数/字数1….字数n。理解上就是如果一个词中的字经常在别处单独出现,那么这个词则可能是偶然组合到一起的。《统计自然语言处理》中,对于这个问题是这么解释的,评价一个事件是否是偶然事件是统计学的经典问题之一。我们通常用假设检验来评价。步骤如下:
1.我们定义一个假设H0(这两个词的不是偶然同现)
2.我们计算出事件出现的概率P
3.如果P很小,就否定H0
这样做的目的是为了让我们的取样能反应总体的特征。我们有一个非常好的模型,那么我们就要证明这个模型的好不是由偶然引起的。
文中介绍了t检验,卡方检验等,这里因为没有太多了解其数学原理,这里不做介绍。最后这一节还介绍了利用不同文本的频率比来发现特殊领域词语的方法。

互信息

这里写图片描述
这里写图片描述

搭配的概念

这里写图片描述
一个比较简单的例子就是如果,你能一个一个词的翻译成外语,这就不太算是一个搭配。