Deep Visual-Semantic Alignments for Generating Image Descriptions摘要
来源:互联网 发布:2017电视选购 知乎 编辑:程序博客网 时间:2024/06/18 00:26
图像表达
用RCNN提取图像中的物体(取概率最大的19个),然后和原始图像一起作为CNN输入,获得图像的特征向量(每幅图20个)
句子表达
使用BRNN,输入为word2vec的词向量(e)
结合图像和句子
损失函数是图像向量和句子向量的match程度
该损失函数使得匹配的图像-句子对比不匹配的对具有更高的得分,并且有余量(类似svm合页损失函数)
从匹配的词语生成连贯的短语
上面的方法生成了图像区域-词语对,现在我们需要把对应同一个图像区域的词语连接起来成为有意义的短语。使用马尔可夫随机场(即条件随机场)。定义能力函数为:
对条件随机场做参数估计,之后就能解序列问题得到最佳的状态序列,从而得到最好的短语。
生成整幅图的描述
使用RNN,并把图像向量也作为一个输入(Deep Learning一书中描述的将额外输入提供给RNN的三种方式:在每个时刻作为一个额外数据;作为初始状态h0;结合两者)
图像向量只作为第一个神经元的输入,句子结束是通过y(t)为结束符(Deep Learning一书中描述的三种确定输出长度的机制:对应序列末端的特殊符号;模型中加入一个伯努利输出表明是否结束;输出一个参数代表长度本身)
0 0
- Deep Visual-Semantic Alignments for Generating Image Descriptions摘要
- Deep Visual-Semantic Alignments for Generating Image Descriptions
- Deep Visual-Semantic Alignments for Generating Image Descriptions总结
- (reading)Deep Visual-Semantic Alignments for Generating Image Descriptions
- Deep Visual-Semantic Alignments for Generating Image Descriptions 翻译
- Deep Visual-Semantic Alignments for Generating Image Descriptions从环境配置到得出结果Chapter1
- Deep Visual-Semantic Alignments for Generating Image Descriptions从环境配置到得出结果Chapter2
- Deep Visual-Semantic Alignments for Generating Image Descriptions从环境配置到得出结果Chapter3
- 【论文笔记】Deep Visual-Semantic Alignments for Generating Image Description
- [深度学习论文笔记][Image to Sentence Generation] Deep Visual-Semantic Alignments for Generating Image Descri
- 语义分割--Learning Object Interactions and Descriptions for Semantic Image Segmentation
- 语义分割--Deep Dual Learning for Semantic Image Segmentation
- Deep Convolutional Nets for Semantic Image Segmentation with Deep Gaussian CRFs
- Learning Deep Representations of Fine-Grained Visual Descriptions
- [文章摘要]A semantic-enhanced trajectory visual analytics for digital forensic
- Convolutional Networks for Image Semantic Segmentation
- Convolutional Networks for Image Semantic Segmentation
- 【deeplab】Semantic Image Segmentation with Deep Convolutional Nets and Fully
- 负载均衡服务的相关命令操作失败------又是磁盘满了惹的祸!
- PAT--1125. Chain the Ropes
- 详解并行逻辑回归
- Android中通过Gson进行json解析
- 一个ASP.NET MVC中ajax调用WebApi返回500 Internal Server Error的调错方法。
- Deep Visual-Semantic Alignments for Generating Image Descriptions摘要
- 7. Reverse Integer
- 微信硬件平台开发--精品博客集
- 关于Asmack聊天框架源码粘贴到项目时报错的解决方法
- linux系统安装mysql数据库(需要在线安装)
- 简单工厂模式
- Codeforces #403 Div.2 B.The Meeting Place Cannot Be Changed
- QML,QT, QT Quick关系
- 编程者的养成