漫谈四种神经网络序列解码模型
来源:互联网 发布:成都广电网络 编辑:程序博客网 时间:2024/06/05 21:56
机器翻译是目前NLP和deep learning结合的研究热点以及未来的研究发展方向,这篇文章转载介绍了基于RNN(recurrent neural network)的四种解码序列模型,
模型背景介绍:
1.基于RNN的序列化编码,hidden layer序列编码生成的编码向量是整个序列隐层编码进行求和平均的方式得到序列的编码向量,
优点:该模型可以做的事情是主题分类、情感检测等等分类任务,通过在编码向量上加softmax分类器就可以实现。
缺点:对于机器翻译和语音识别等序列化的问题则需要进行序列化解码。
2.基于RNN最简单的解码模式则是编码向量生成同上,在解码的输入特征端是通过将编码端每时刻得到的编码向量作为解码模型的输入特征
优点:在解码端引入了时序的概念,可以实现机器翻译等序列化的任务
基于RNN模型扩展解码端得到四种序列解码模型,依据解码能力的强弱分为四种:
以学习和闭卷考试为例,输入文本->课本,编码向量->课堂笔记,解码隐层->学生的大脑,解码文本(输出)->考试试卷写的答案
一、普通作弊型(decoder1)
脑子还可以,只需要看课堂笔记就可以答题
二、学霸型(decoder2)
学习刚刚的,最强大脑,可以记住课堂笔记,不需要看笔记,答题时只需要回顾一下前面写过什么就可以给出答案
三、学弱型(decoder3)
学弱哈,脑子不好使,记不住东西,连自己上一时刻写在答卷上的文字都记不住,需要翻看笔记并且回顾自己上一时刻写在答卷上的答案
四、学渣渣型(decoder4)
学习太差啦,不只需要看笔记和回顾自己上一时刻答卷上的答案,还需要老师在课本上画出重点才能整理出自己的课题笔记(注意力机制Attention)
除了学霸模型,其他模型在答题的时候翻看课堂笔记(很多文献中叫这种解码模型结构为peek(偷看),是不是很像在作弊?),而且学渣渣还去找过老师给画过重点,有了清楚的重点之后就不用翻书偷看了,瞄一眼就可以了,文献中叫glimpse(一瞥),是不是很像?呵呵
训练结果:
第一种解码模型为 普通作弊,第二种解码模型为 学霸模式,第三种解码模型为 学弱作弊,第四种解码模型为 学渣作弊。可以看到在IQ值(解码模型的神经网络结构)相同的情况下,学渣作弊模式答题(训练收敛速度)更快,而学霸模式答题最慢。
文章转载自:
http://jacoxu.com/?p=1852%E2%80%8B
0 0
- 漫谈四种神经网络序列解码模型
- Seq2Seq非常好的代码(机器翻译、对话生成等):漫谈四种神经网络序列解码模型【附示例代码】
- 多进程解码网络编程模型选择的漫谈
- lecture7-序列模型及递归神经网络RNN
- 计算机网络漫谈之OSI七层模型和TCP/IP四层模型
- 计算机网络漫谈:OSI七层模型与TCP/IP四层(参考)模型
- 计算机网络漫谈:OSI七层模型与TCP/IP四层(参考)模型
- 卷积神经网络(CNN)标准模型分析(四)
- 神经网络模型
- 干货|如何用Keras为序列预测问题开发复杂的编解码循环神经网络?
- 漫谈ANN(2):BP神经网络
- Linux IO模型漫谈
- Linux IO模型漫谈
- 四种领域模型
- 四种信用风险模型
- hdlc协议解码的四种方法
- Linux的三种线程实现模型漫谈
- 时间序列分析之四:模型定阶
- 关于程序自动安装软件的一些问题1
- 快速排序(快排)的一些细节和k-th问题
- 剑指offer:判断二叉树是不是平衡二叉树(java)
- 习题8.9
- 1006
- 漫谈四种神经网络序列解码模型
- 谷歌插件postman的安装
- Codeforces 219C C. Color Stripe【dp+输出路径】
- JAVA笔记:double四舍五入并保留两位小数的方法
- setw()与setfill()
- HDU#1021:Fibonacci Again
- 打表
- 图像缩放之双线性内插值法
- AsyncTask异步任务