TensorFlow学习日记8
来源:互联网 发布:中文翻译软件哪个好 编辑:程序博客网 时间:2024/06/15 16:10
1. char-rnn
解析:char-rnn是一个字符(中文就是一个字,英文就是一个字母)水平的语言模型,通过训练文本文件可以预测序
列中下一个出现的字符,并以此来生成完整的文本。
2. Seq2Seq模型(Encoder-Decoder模型)
解析:
(1)Encoder-Decoder结构先将输入数据编码成一个上下文向量c,得到c有多种方式,最简单的方法就是把Encoder
的最后一个隐状态赋值给c,还可以对最后的隐状态做一个变换得到c,也可以对所有的隐状态做变换。
(2)得到c之后,就用另一个RNN网络对其进行解码。具体做法是将c当做之前的初始状态输入到Decoder中,还
有一种做法是将c当做每一步的输入。
3. Attention机制
解析:
每一个c会自动去选取与当前所要输出的y最合适的上下文信息。具体来说,用衡量Encoder中第j阶段的
和解码
时第i阶段的相关性,最终Decoder中第i阶段的输入的上下文信息就来自于所有
对
的加权和。其中,
是从模型
中学习出来的,它实际和Decoder的第i-1阶段的隐状态、Encoder第j个阶段的隐状态有关。
,
,
计算过程,如下所示:
参考文献:
[1] 完全图解RNN、RNN变体、Seq2Seq、Attention机制:https://zhuanlan.zhihu.com/p/28054589
阅读全文
0 0
- TensorFlow学习日记8
- TensorFlow学习日记1
- TensorFlow学习日记2
- TensorFlow学习日记3
- TensorFlow学习日记4
- TensorFlow学习日记5
- TensorFlow学习日记6
- TensorFlow学习日记7
- TensorFlow学习日记10
- TensorFlow学习日记11
- TensorFlow学习日记12
- TensorFlow学习日记13
- TensorFlow学习日记14
- TensorFlow学习日记15
- TensorFlow学习日记16
- TensorFlow学习日记17
- TensorFlow学习日记18
- TensorFlow学习日记19
- maven聚合工程的创建和聚合工程的打包
- 对于给定的数组,统计出其中最多的元素的值
- 集合框架专题2—AbstractList
- 常见算法基础题思路简析(六)-字符串篇
- bzoj 3893: [Usaco2014 Dec]Cow Jog 并查集+单调队列
- TensorFlow学习日记8
- Head First Java 总结
- Java Development kit 9
- 杂谈---------- OneNote代码高亮---NoteHighlight 2013
- python中如何调用.py文件
- Canvas的drawText方法详解
- 关于数组作为局部变量超时
- 虚拟机的OutOfMemoryError异常
- 搜狗笔试