统计自然语言处理基础学习笔记(1)
来源:互联网 发布:多囊卵巢综合征 知乎 编辑:程序博客网 时间:2024/05/17 08:14
识别文本中的搭配
识别搭配有很多方法,书中介绍了基于频率的搭配识别,基于含义和主词搭配之间距离的识别,基于假设测试和互信息的识别。
1.基于频率的识别
如果两个词在一起出现了很多次,那么就是一个证据说明它们有特殊的功能,可以预计到的是仅仅找到最频繁出现的二元组结果并不理想,会出现很多由2个功能词组合的二元组,如of the,in the,to the等等。
对于上面的不理想情况,有一种可以解决的办法,即基于词性标记的短语过滤搭配识别,如下:
标记模式示例A Nlinear functionN Nregression coefficientsN P Ndegrees of freedom
经过过滤器过滤之后出现的频率排名最高的短语,效果远远好于最简单的频率模式。
2.基于距离的识别
我们知道有一些二词搭配中两个单词的距离很灵活,例如put up,put it up,put the book up,put和up之间的距离可以有很多种选择。
于是我们基于均值和方差的方法可以寻找这样特殊的搭配。
在某语料库中,knocked和它的常用搭配之一door,
a.she knocked on his door
b.they knocked at the door
c.100 women knocked on Donaldson's door
d.a man knocked on the metal front door
knock和door之间的平均距离为1/4(3+3+5+5) = 4.0
偏差为s=3.15
0 0
- 统计自然语言处理基础学习笔记(1)
- 统计自然语言处理基础学习笔记(1)
- (笔记)统计自然语言处理基础 第1章 绪论
- 统计自然语言处理学习笔记(1)
- 统计自然语言处理基础学习笔记(2)——语料库
- 统计自然语言处理基础-笔记-数学基础
- 《统计自然语言处理》笔记(1)
- 统计自然语言处理基础-笔记-绪论
- 统计自然语言处理的基础学习之一
- 统计自然语言处理的基础学习之一
- 统计自然语言处理基础学习笔记(3)——统计推理
- 《统计自然语言处理基础》笔记(1)固定搭配词组/习语 识别方法
- 《统计自然语言处理》笔记(2)
- 统计自然语言处理基础学习笔记(4)——语义消除歧义
- 统计自然语言处理基础学习笔记(5)——词汇获取
- 统计自然语言处理基础学习笔记(6)——马尔可夫模型
- 统计自然语言处理基础学习笔记(7)——句法分析
- 统计自然语言处理基础学习笔记(8)——文本分析
- Zookeeper,etcd,consul内部机制和分布式锁和选主实现的比较
- Android 开发:由模块化到组件化
- Android 高效调试神器 JRebel
- HTML5 CSS介绍及三种使用方法
- #pragma 详解
- 统计自然语言处理基础学习笔记(1)
- 用Oracle的EM做数据库的管理(表空间、用户及授权为例子)
- ofbiz修改默认主题选择
- Android开发:浅谈MVP模式应用与内存泄漏
- JS:收银找零程序
- RxJava入门系列三,响应式编程
- 微信小程序toFixed()和toPrecision()的用法
- 通过TrackPopupMenu函数弹出菜单
- 前端模板引擎,绑定数据