统计语言模型
来源:互联网 发布:c语言函数有几个? 编辑:程序博客网 时间:2024/05/10 07:02
统计语言模型, Statistical Language Model.
1. 简介
自然语言具有上下文相关的特性, 所以统计语言模型就是为这种相关特性建立语言模型. 它是今天所有自然语言处理的基础.
判断一个句子是否合理, 就用概率来衡量.
一个句子就是一些词语的序列, 假定用S表示,
利用条件概率的公式, 展开得
其中
前两个比较好算, 但第三个就涉及到了三个变量
2.马尔可夫假设
假设一个词
基于此假设, 式(1)就可以改写为
3. n-gram model
式(2)对应的统计语言模型就是bi-gram model, 二元模型.
类似地, 假设一个词
4.词袋模型
词袋, Bag of words.
对于一个文本,忽略其词法, 语法, 语义, 仅将其看做是一个词的集合, 文本中每个词的出现都是独立的, 那么就得到了词袋模型.
一个语料库由若干文本组成, 先计算出语料库的词袋, 然后就可以用词向量来表示每个文本.
如
文章A: 她很漂亮, 我都想去搭讪了.
文章B: 我去上学了.
词袋为{她 ,很 , 漂亮 ,我 ,都, 想, 去, 搭讪, 了,上学}
5.词向量
对词典D中的任意词w, 都可以用一个固定长度的实值向量
5.1 one-hot
词袋模型中的文章(或 句子)向量可以看做所包含的词语的词向量加和, 即
其中每个词向量都有one-hot的特征, 即某一分量不为0 , 其他分量全为0.
one-hot有两个缺陷:
- 对于同义词等, one-hot 不能够表示这种相似关系.
- 词袋模型模型越大, 文章向量越稀疏, 这种维度的激增会对计算提出更高的要求.
5.2 distributed representation
对词典中的每一个词语都用固定长度的向量来表示, 不同于one-hot, 它形如
在word2vec中, 这个向量的维度是自定义的, 默认是100维.
- 统计语言模型
- 统计语言模型-1
- 统计语言模型
- 经典统计语言模型
- 统计语言模型
- 统计语言模型
- 统计语言模型
- 统计语言模型&word2vec
- 统计语言模型简述
- 统计语言模型
- 统计语言模型
- 统计语言模型
- 统计语言模型
- 初探统计语言模型
- 统计语言模型
- 统计语言模型(SLM)
- 统计语言模型(SLM)
- 谈语感:统计语言模型
- RDD Java API 学习总结
- Java将科学计数法数据转为字符串
- Similar words
- 【Java】编写一个方法,输出在一个字符串中,指定字符串出现的次数
- 575. Distribute Candies
- 统计语言模型
- 翻译的艺术 —— 句子的翻译(意译)
- 学习NodeJS之数据库Mysql基本命令篇
- LeetCode刷题(C++)——Implement strStr()(Easy)
- C++类与对象
- android开发游记:仿支付宝余额数字累加滚动效果的实现
- Qt_log2000_界面框架下的函数指针初探
- J2EE搭建Dynamic web SpringMVC工程404错误分析(一)
- 杭电ACM刷题(1):1002,A + B Problem II