统计自然语言处理的基础学习之一
来源:互联网 发布:试题库管理系统java 编辑:程序博客网 时间:2024/05/15 20:53
1. NLP的一些基本概念和问题
计算机如何处理自然语言?
理性主义:其实就是纯粹使用规则的方法处理自然语言,并认为这些语言规则天生就存在人的基因中。在计算机中重现这些规则,就能学会人的语言处理能力。
经验主义:认为人有感知和学习能力,通过概括、模式识别、联想等能力,来学习到自然语言的结构。
哲学上的问题,类似于起源之类,就先别考虑的。
统计方法在NLP中的地位是什么?
统计方法是解决NLP问题的方法之一。
问题:
一个句子是否合乎语法?是或否,这就是句子的二值问题
如何处理语言中的歧义问题?这个是NLP的难点。歧义范围包括词义、词类别、句法结构、语义范畴。
NLP学习和练习的首要条件是什么?
建立起要解决问题和获取语料库。
关于语料库,《统计NLP基础》书里给出了几个重要的语料库和URL.
NLP在统计上的一些基本问题:
一篇文章中有多少单词?
有多少个不同的单词?
每个单词出现频率是多少? “词频”
这些基本统计方法的意义是什么?
什么是Zipf法则?
最小精力付出原理:用最小的力气,做最多的事。
词频现象符合双曲分布。而不是线性或者高斯分布
词频与词的长度成反比。(这个可以用huffman编码原理理解,是历史演化的规律)
实词趋向于在相邻的位置出现,有点聚集的意思。
2. NLP的概率论基础
传统概率论概念:
概率空间
条件概率、独立性
乘法定律
贝叶斯定理:这个是很多处理方法的核心。简单实用
随机变量、随机分布、均值(期望)、方差
联合分布、条件分布
二项分布(离散的)、正态分布(连续的)
-----------------------
贝叶斯统计:
假设先验知识不是一成不变的,可以通过不断的实验,来寻找证据来更新这些先验知识。更新方法就是贝叶斯定理。
如质地均匀的硬币,正面向上的概率是0.5. 即先获取一个近似的先验分布,是P(u) = 6m(1-m)
在实验结果s的影响和更新下:
P(u|s) = p(s|u) * p(u) / p(s)
p(s)为先验概率。若10次实验、8次正面、2次反面,则更新后的先验概率就为0.75. 这样描述太粗糙了,需要仔细地看专业书来推理。
贝叶斯决策定理:
即MAP,极大后验概率决策。
由先验概率、先验概率条件下各情况发生的实际情况(如次数统计),计算出各实际情况下先验概率的更新。
并选择最大的MAP的条件进行决策。
概率论部分 是基础,需要精心的学习一下相关概念。
3. NLP的信息论基础
与其紧密相关的概念有:
概率密度函数
熵的定义 求和 -p(x) log(p(x)).
它的意义:熵与编码长度的关系,用较少比特传输频率高的字符。利用熵理论,来确定 “求解不确定性的问题”所需多少资源。
熵与概率的关系紧密相连。
联合熵、条件熵
互信息:计算两个随机变量之间共有信息之间的度量。
噪声信道模型:信道容量、输入、输出、互信息取最大值、系统的概率分布。
香农信息论的意义:1. 定义了信息容量,使信道的传输速率有了一个上界;2.设计适当的编码能信道的传输速率最优
基于概率进行传输(翻译)。
K-L距离
交叉熵
2和3的概念在专业的书里面写的很详细,我在另外一篇blog里也总结过了,这里只列些紧要的东西。
http://blog.csdn.net/viewcode/article/details/8819361
http://blog.csdn.net/viewcode/article/details/8820272
http://blog.csdn.net/viewcode/article/details/9042187
4. 语言学基础概念
5. 如何证实一个二元组是短语搭配?
6. 如何对检测出的“词对”进行检验?
7. 两个词之间的互信息如何度量?
8. 什么是shannon游戏? n元语法模型?
9. 如何对n元语法模型进行统计估计?
4)什么是留存估计?
就是一个数据集,一部分用来训练,另外一部分留存的数据用来验证。
在训练的数据上进行验证是不正确的。
在不同的数据集上进行测试是必要的。
在训练数据上,交叉熵的值要比真实文本的熵低。
可以使用留存的数据来计算 转移的概率有多大。
10. 什么是语义消岐?有哪些处理算法?
- 统计自然语言处理的基础学习之一
- 统计自然语言处理的基础学习之一
- 统计自然语言处理基础学习笔记(1)
- 统计自然语言处理---信息论基础
- 统计自然语言处理---信息论基础
- 统计自然语言处理基础 导论
- 统计自然语言处理基础学习笔记(2)——语料库
- 统计自然语言处理基础学习笔记(1)
- 自然语言处理基础学习
- 系统学习《统计自然语言处理》
- 统计自然语言处理基础-笔记-数学基础
- 统计自然语言处理 之 数学基础
- 统计自然语言处理 之 数学基础
- 统计自然语言处理基础-笔记-绪论
- 统计自然语言处理——概率论基础
- 统计自然语言处理——信息论基础
- 统计自然语言处理基础学习笔记(3)——统计推理
- 统计机器学习与自然语言处理
- Android 调用系统相机拍照保存以及调用系统相册的方法
- linux与Windows文件共享
- STM32 swd引脚被占用时的下载方法
- Android-ImageView显示选择本地图片或拍照
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 统计自然语言处理的基础学习之一
- android 拍照和上传
- Windows_oracle10g_2013_11_10_主动维护
- 11个实用的Apache .htaccess配置
- VS2008 Pocket PC 2003 SE仿真程序上网设置
- window API一天一练习之获取磁盘空间
- mysql workbench 1175错误
- STL 队列的使用方法
- bias和variance