统计自然语言处理基础学习笔记（1）

来源：互联网发布：多囊卵巢综合征知乎编辑：程序博客网时间：2024/05/17 08:14

识别文本中的搭配

识别搭配有很多方法，书中介绍了基于频率的搭配识别，基于含义和主词搭配之间距离的识别，基于假设测试和互信息的识别。

1.基于频率的识别

如果两个词在一起出现了很多次，那么就是一个证据说明它们有特殊的功能，可以预计到的是仅仅找到最频繁出现的二元组结果并不理想，会出现很多由2个功能词组合的二元组，如of the，in the，to the等等。

对于上面的不理想情况，有一种可以解决的办法，即基于词性标记的短语过滤搭配识别，如下：

标记模式示例A Nlinear functionN Nregression coefficientsN P Ndegrees of freedom

经过过滤器过滤之后出现的频率排名最高的短语，效果远远好于最简单的频率模式。

2.基于距离的识别

我们知道有一些二词搭配中两个单词的距离很灵活，例如put up，put it up，put the book up，put和up之间的距离可以有很多种选择。

于是我们基于均值和方差的方法可以寻找这样特殊的搭配。

在某语料库中，knocked和它的常用搭配之一door，

a.she knocked on his door

b.they knocked at the door

c.100 women knocked on Donaldson's door

d.a man knocked on the metal front door

knock和door之间的平均距离为1/4(3+3+5+5) = 4.0

偏差为s=3.15

0 0