Attention-based Extraction of Structured Information from Street View Imagery
来源:互联网 发布:警惕网络陷阱教学设计 编辑:程序博客网 时间:2024/05/22 08:05
基本方法:
(1)使用CNN处理图像。
(2)将处理得出的特征加权后作为RNN的输入。
图1. 模型结构图最底层的四个原始图片是CNN特征提取器的输入,经过相同的CNN之后,得到四个特征f,再经过加权组合成ut,权重为at。ut为固定长度的特征向量,并作为RNN的输入.
CNN:
f =
RNN:
难题:将特征向量f转为一个单独的文本字符串
方法:使用RNN
输入:CNN的输出特征向量f进行加权组合成固定长度的特征向量ut
变量表示:
(1)
RNN隐藏层在时间t的状态。
(2)
RNN的输入
(3)
加权权重
(4)
状态t下,第c个channel的输入
(5)
其中
(6)
(7)
(8)
(9)
其中
处理不同视角的街景图像
将不同视角的街景图像经过相同的CNN提取出特征向量,然后将这些不同的特征向量以水平的方式组合成一个单独的输入向量
训练
使用最大似然估计来训练模型,似然函数为:
使用随机梯度下降法来训练模型。初始学习速率是0.002,momentum系数是0.75。大概训练了2000000步。
本文在训练过程中对图像进行缩放处理。在放大时,使用了双线性等差值。对图像在对比度、色调、饱和度、亮度等方面进行了失真处理。
为了正则化模型,本文使用权重衰减参数为0.00004,平滑系数0.9,LSTM值为10。LSTM单元大小为256。我们在40台机器上进行异步批处理,批大小为32。
- Attention-based Extraction of Structured Information from Street View Imagery
- Attention-based Extraction of Structured Information from Street View Imagery:基于注意力的街景图像提取结构化信息
- 论文笔记 《Information Extraction:Distrilling Structured Data from Unstructured Text》
- Information Extraction
- 【论文笔记】Information Extraction over Structured Data: Question Answering with Freebase
- 一篇综述:A Survey of Web Information Extraction Systems
- 5 Ways to Grab Attention with Imagery
- Structured Threat Information eXpression
- Knowledge-Based Clustering : From Data to Information Granules
- A Survey of Web Information Extraction Systems——web信息抽取系统研究现状(一)
- [ACL2017]Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
- Street View Service
- Google Street View Related
- 【翻译】Itti的论文1998 A Model of Saliency-Based Visual Attention
- 论文笔记:A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
- 显著性检测(三)A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
- View Column Updatability Information from the Data Dictionary
- Definition of 'Main Street'
- 2017金马五校赛 F.A序列(LIS)
- 66. Plus One
- 剑指offer--面试题15:二进制中1的个数
- 钉钉微应用接入(企业内部开发)
- 简单理解src和ng-src
- Attention-based Extraction of Structured Information from Street View Imagery
- MPAndroidChart 画柱状图,线等统计图。
- shell read处理用户输入示例讲解
- 开发环境、生产环境、测试环境的基本理解和区别
- Machine Learning:Regression with multi variables
- PAT:1005. 继续(3n+1)猜想 (25)
- hibernate设置默认值
- 【怎样写代码】偷窥高手 -- 反射技术(四):深入窥视属性
- easyui表格数据折叠的使用经验