CS224d-Lecture8
来源:互联网 发布:sql语句定义变量 编辑:程序博客网 时间:2024/05/21 18:44
Language Model
probability of a sequence of words
- P(w1, w2, …, wT)
Useful for machine learning:
word - ordering
- p(the cat is small) > p(small the is cat)
word - choice
- p(walking home after school) > p(walking house after school)
Traditional Language Model
条件概率,其中 window size = n
assumption
n-gram
- unigram
p(w2|w1)=count(w1,w2)count(w1) - bigram
p(w3|w1,w2)=count(w1,w2,w3)count(w1,w2)
n-gram 耗费大量内存
RNN
- 每步权重互联
- 条件依赖于之前所有单词
- RAM 耗费只同单词量相关
训练 RNN is hard
vanishing / exploding gradient problem
total error
其中
故
由于取
则
可能非常快的就变得很大或者很小。
vanishing gradient problem 使得许多步之前的对当前训练的影响微乎其微
exploding gradient clip gradient
vanishing gradient -> Initialization + ReLus
softmax is huge and slow
- class based trick
双向 RNN
- 之前和之后的训练词对当前训练都有影响
深度双向 RNN
F1 度量
precision = tp/(tp+fp)
recall = tp/(tp+fn)
F1 = 2(precision recall)/(precsion + recall)
0 0
- CS224d-Lecture8
- Unit 2-Lecture8: Degrees & Isomorphism
- 台湾大学机器学习基石Lecture8
- CS224d-Assignment1
- CS224d-Assignment2
- CS224D Lecture 1 札记
- CS224D Lecture2 札记
- CS224D Lecture 4 札记
- CS224d lecture 6札记
- CS224d lecture 7札记
- CS224d lecture 8札记
- CS224d lecture 9札记
- CS224d lecture 10札记
- CS224d lecture 12札记
- CS224d lecture 13札记
- CS224d lecture 15札记
- CS224d lecture 14札记
- CS224d lecture 16札记
- Exynos4412时钟体系分析
- lp_solve lpsolve java MAC osx
- web应用中集成Ireport
- office2003、2010、2013下载资源
- Android 播放网络音频
- CS224d-Lecture8
- 使用android的系统API报错:找不到符号
- 压缩图片无bug版
- 1005: DNA
- 设备树学习之(一)GPIO中断
- 线性基 模板 bzoj2460 【BeiJing2011】 元素
- The parameters 'mainClass' for goal org.codeh aus.mojo:exec-maven-plugin:1.6.0:java are missing or
- Springview
- (枚举,dfs)Flip Game poj 1753