Attention-based Extraction of Structured Information from Street View Imagery

来源:互联网 发布:警惕网络陷阱教学设计 编辑:程序博客网 时间:2024/05/22 08:05

基本方法:
(1)使用CNN处理图像。
(2)将处理得出的特征加权后作为RNN的输入。

图1. 模型结构图最底层的四个原始图片是CNN特征提取器的输入,经过相同的CNN之后,得到四个特征f,再经过加权组合成ut,权重为at。ut为固定长度的特征向量,并作为RNN的输入.

CNN:
f = {fi,j,c} CNN提取器的输出,i,j是位置索引,c是通道索引

RNN:
难题:将特征向量f转为一个单独的文本字符串
方法:使用RNN
输入:CNN的输出特征向量f进行加权组合成固定长度的特征向量ut
变量表示:
(1)st
RNN隐藏层在时间t的状态。
(2)ut
RNN的输入
(3)at=at,i,j
加权权重
(4)ut,c=i,jat,i,jft,i,j
状态t下,第c个channel的输入ut,c的计算方式。
(5)x^t,c=Wcct1+Wu1ut1
其中ct1表示前一个状态输出层的输出字符的独热编码,ut1表示前一个状态输入层的输入,Wc,Wu1分别表示两者的参数
(6)(ot,st)=RNNstep(x^t,:,st1)
st1表示RNN在前一个时间的状态,ot表示在状态t的输出层的输出。
(7)o^t=softmax(Woot+Wu2ut)
(8)ct=argmax o^t(c)
(9)αt,i,j=softmax(Va(Wsst+Wf1fi,j,:+Wf2ei+Wf3ej))
其中ei表示坐标i的独热编码。本文将空间坐标(i,j)的独热编码加入了图像的特征向量。

处理不同视角的街景图像
将不同视角的街景图像经过相同的CNN提取出特征向量,然后将这些不同的特征向量以水平的方式组合成一个单独的输入向量

训练
使用最大似然估计来训练模型,似然函数为:Tt=1logp(yt|y1:t1,x) ,其中x是输入的图像,y_t是在状态t下预测的标签。在FSNS数据库中,T=37,即一个单词最多只有37个字符,如果某个单词字符不足37个字符,这个模型将会预测null字符。
使用随机梯度下降法来训练模型。初始学习速率是0.002,momentum系数是0.75。大概训练了2000000步。
本文在训练过程中对图像进行缩放处理。在放大时,使用了双线性等差值。对图像在对比度、色调、饱和度、亮度等方面进行了失真处理。
为了正则化模型,本文使用权重衰减参数为0.00004,平滑系数0.9,LSTM值为10。LSTM单元大小为256。我们在40台机器上进行异步批处理,批大小为32。

阅读全文
0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 牙疼怎么办最快最有效 动车票名字错了怎么办 商铺房东涨房租怎么办 生了个畸形孩子怎么办 螃蟹的内脏吃了怎么办 脸上好多黑头在毛孔里怎么办 秋天穿裙子腿冷怎么办 拖鞋穿久了发臭怎么办 付钱了抢不到票怎么办 一号通电讯骗了怎么办 酒店预授权没退怎么办 英国拒签10年怎么办 汽车行驶证丢了怎么办 狗狗剧烈的抖动怎么办 飞度减震那么硬怎么办 抢红包有人开挂怎么办 票买了没身份证怎么办 高铁身份证没带怎么办 在飞机上要拍照怎么办 拍照片人闭眼了怎么办 偏头疼恶心想吐怎么办 健康证怎么办 在哪办 怎么办健康证去哪里办 公司合同不给我怎么办 孕妇吃了酸梅粉怎么办 婧氏牙膏没客源怎么办 乐视手机耗电快怎么办 乐视手机费电快怎么办 最爱最恨都是你怎么办 耳朵长疱疹很痛怎么办 刚怀孕就有霉菌怎么办 车牌选错了想换怎么办 足癣传染到身上怎么办 金鱼生病了立鳞怎么办 脸上有闭口痘痘怎么办 泰迪得了皮肤癣怎么办 qq截图发不出去怎么办 半夜2点肚子饿怎么办 半夜两三点饿了怎么办 科目三预约不上怎么办 心脏支架又堵了怎么办