Language Models
来源:互联网 发布:美女公寓小说txt淘宝 编辑:程序博客网 时间:2024/06/04 19:08
本章介绍语言模型,内容包括:
- Introduction to N-grams
- Estimating N-gram Probabilities
- Evaluation and Perplexity
- Smoothing
Introduction to N-grams
Probalilistic Language Models(概率语言模型)的首要任务是估计一个字符串序列或者句子出现的可能性大小
自然的,可以定义
这个模型的泛化能力很差,那些在训练集中没有出现的句子,它的概率就强制为0了。
假设
现在的目标变成估计
最简单的模型即Unigram model,每个词出现的概率与上下文无关,
Bigram model:认为每个单词的出现只与它的前一个单词相关,
我们也可以使用
Estimating N-gram Probabilities
以二元模型为例,采用最大似然估计(Maximum Likelihood Estimate),得到参数如下:
只需要用全部语料库中连着出现
一些公开的语言模型:
- SRILM
- Google N-Gram Release
- Google Book N-grams
Evaluation and Perplexity
如何评估模型?首先我们根据training set(训练集数据)求得模型参数,然后使用新的数据集(test set)来测试所建立语言模型的性能。Train set和Test set属于同一领域时,训练出的语言模型的准确性就高,对test set的预测性就越好。倘若两者属于不同领域,那么所训练的模型就未必好。
- Extrinsic evaluation:根据一个具体的任务,训练两个语言模型A和B,然后使用大量数据来监测A和B,比较两者的准确率,这会消耗大量时间
- Intrinsic evaluation:Perplexity
Smoothing
在
- Add-one Smoothing
Add-one Smoothing不适用于N-grams,通常用于平滑其他NLP模型,如文本分类,以及一些零概率出现比较少的情况。
更一般的形式是Add-k Smoothing - Interpolation
有时我们需要将多种语言模型——trigram(三元)、bigram(二元)、unigram(一元)模型混合使用,这就需要使用插值方法。
如何设置λ呢?把原有的train set数据分成两份,一份继续作为train set(训练语料),用于初始的频率估计;另一份用来改善最初的频率估计,这一份便称为“held-out data”
- Language Models
- 【论文笔记】Character-Aware Neural Language Models
- 自然语言处理学习篇03——Language Models
- The Object Constraint Language: Getting Your Models Ready for MDA, Second Edition
- 数学之美系列之一:统计语言模型 (Statistical Language Models)
- 【Deep Learning学习笔记】NEURAL NETWORK BASED LANGUAGE MODELS FOR HIGHLY INFLECTIVE LANGUAGES_google2009
- 哥伦比亚大学Coursera课程自然语言处理Natural Language Processing:1. Hidden Markov Models: Instructions
- RNN语言模型中的在线表示学习Online Representation Learning in Recurrent Neural language models
- [NLP论文阅读] The Fixed-Size Ordinally-Forgetting Encoding Method for Neural Network Language Models
- language
- language
- Bayesian models
- HCI Models
- IO Models
- IO Models
- Process Models
- IO Models
- Django Models
- shell中的wait
- Tomcat启动报错A child container failed during start
- newScheduledThreadPool创建可间隔时间执行的线程池
- 如何通过JAVA发送邮件
- osg的NodeCallback回调使用方法
- Language Models
- csh shell编程入门
- 使用visualvm远程监控JVM LINUX tomcat服务器与客户端配置方法
- 对于唯一索引使用唯一条件搜索, InnoDB 只锁定找到的index record,不是它之前的区间
- 第6课:<body>标签
- codeforces 40A. Find Color
- HDU-1081-To The Max(二维最大子段和)
- boost 库 安装
- git 保存用户名和密码