业界 | 23篇论文入选CVPR2017, 商汤科技精选论文解读
来源:互联网 发布:kegg数据库是做什么 编辑:程序博客网 时间:2024/06/05 10:58
2017 年 7 月 11 日,专注于计算机视觉和深度学习的国内人工智能企业商汤科技完成 4.1 亿美元融资的消息引爆业内。本次融资创下了全球人工智能公司单轮融资的最高纪录。作为一家专注于计算机视觉和深度学习的新锐公司,在即将到来的世界顶级计算机视觉会议CVPR(7月21日-26日,美国夏威夷)上,商汤科技也将带来一系列的技术Demo、Presentation、PartyTime等活动。在本届CVPR 2017 大会上,商汤科技及香港中大-商汤科技联合实验室共有23篇论文被接收。录取论文中不乏新奇有趣的题目,详细内容欢迎到会场和作者深度交流。
因图而异的融合网络 - Quality Aware Network for Set to Set Recognition
图像质量差异识别难点示意图
在人脸识别、人体再识别任务中,输入的数据通常是每张人脸或每个人体的多张图像构成的序列。现有的方法利用卷积神经网络对一个序列中的所有图像分别提取特征,再将特征进行简单的平均或池化,作为该序列的最终特征用于之后的识别。但实际应用场景中一个序列中的图像可能在许多方面存在着较大差异,例如光照、清晰度、角度等,如示例图。由于在融合序列的特征时没有考虑到这些差异,上述方法在实际应用场景用会受这些因素的影响从而无法达到理想的效果。本论文提出了一种新的序列匹配方法,充分考虑了序列内图像的差异性,并利用深度学习的方法对这种差异性进行无监督的学习,再根据学习到的质量差异性对序列中的图像特征进行融合,最终得到具有较高判别力的序列特征,解决光照模糊等一系列实际应用中的问题。
以自然语言搜人 - Person Search with Natural Language Description
以自然语言描述来进行人的检索
大规模图像库检索有非常大的行业意义,通常提取图像属性特征再通过属性检索来找到目标。但是常用场景比如嫌疑犯描述都是通过自然语言描述(人类能理解的语言)。本论文提出了使用自然语言描述进行人的大库检索,如上图所示,自然语言描述为“这位妇女穿着一件长而亮的橙色长袍,腰上系着一条白色腰带。她把头发挽成一个发髻或马尾辫。”这样的描述要比用属性来的丰富的多。这个系统定位人体图像显著视觉区域,同时把有意义的文本描述短语赋予显著的视觉区域。通过学习图像-语言关系,系统可以准确得到自然语言查询和相似度得分,从而大大提成查询准确率和效率。
结合人类视觉注意力 - Residual Attention Network for Image Classification
首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合
视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像获得需要关注的目标区域,而后重点获取所需要关注的目标信息,抑制其他无用信息。人类视觉注意力机制极大的提高了视觉信息处理的效率与准确性。注意力机制已经在自然语言处理中取得了重大成功。但在计算机视觉任务中,如何将视觉注意力机制有效的嵌入到神经网络结构并提升网络性能成为亟待解决的问题。
Residual Attention Network,在图像分类问题上,首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合,并取得了远超之前网络结构的准确度与参数效率。仅用与ResNet-50的相当的参数量和计算量就得到了远超过了ResNet-152的分类性能。今年ImageNet检测冠军团队已经在LOC任务重使用了本文的机制。 模型、参数等都可以参考网站
商汤科技PartyTime
CVPR 2017 会议期间商汤将联合香港中文大学联合实验室共同主办一场SenseTime PartyTime活动。该活动旨在为计算机视觉领域的研究人员和学生提供交流机会,并且会有业内大咖分享最新研究成果。
活动时间: 7月24日下午12:00-16:00pm
活动地点:THE MODERN HONOLULU, Honolulu, Hawaii
附录
商汤科技及香港中大-商汤科技联合实验室共有23篇论文被接收,附上CVPR2017上Session时间
1) Multi-Context Attention for Human Pose Estimation - Saturday, July 22, 2017,09:00–10:30
2) Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation - Saturday, July 22, 2017,09:00–10:30
3) Accurate Single Stage Detector Using Recurrent Rolling Convolution - Saturday, July 22, 2017,10:30–12:30
4) Mimicking Very Efficient Network for Object Detection - Saturday, July 22, 2017,10:30–12:30
5) Object Detection in Videos with Tubelet Proposal Networks - Saturday, July 22, 2017,10:30–12:30
6) Spindle Net: Person Re-identification with Human Body Region Guided Feature Decomposition and Fusion.- Saturday, July 22, 2017,10:30–12:30
7) Discover and Learn New Objects from Documentaries - Saturday, July 22, 2017,13:30–15:00
8) Learning object interactions and descriptions for Semantic Image Segmentation - Saturday, July 22, 2017,13:30–15:00
9) Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification Saturday, July 22, 2017- 15:00–17:00
10) Scale-Aware Face Detection - Saturday, July 22, 2017,15:00–17:00
11) Interpretable Structure-Evolving LSTM - Sunday, July 23, 2017,08:30–10:00
12) Detecting Visual Relationships with Deep Relational Networks - Sunday, July 23, 2017,13:00–14:30
13) Joint Detection and Identification Feature Learning for Person Search - Sunday, July 23, 2017,13:00–14:30
14) Learning Cross-Modal Deep Representations for Robust Pedestrian Detection - Sunday, July 23, 2017,14:30–16:30
15) PolyNet: A Pursuit of Structural Diversity in Very Deep Networks - Sunday, July 23, 2017,14:30–16:30
16) Pyramid Scene Parsing Network - Sunday, July 23, 2017,14:30–16:30
17) Person Search with Natural Language Description - Monday, July 24, 2017,10:00–12:00
18) Quality Aware Network for Set to Set Recognition - Monday, July 24, 10:00–12:00
19) UntrimmedNets for Weakly Supervised Action Recognition and Detection - Tuesday, July 25, 2017,10:00–12:00
20) Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade - Tuesday, July 25, 2017,13:00–14:30
21) Residual Attention Network for Image Classification - Tuesday, July 25, 13:00–14:30
22) ViP-CNN: A Visual Phrase Reasoning Convolutional Neural Network for Visual Relationship Detection - Tuesday, July 25, 2017,1430–1630
23) Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing - Tuesday, July 25, 2017,14:30–16:30
雷锋网原创文章,未经授权禁止转载。详情见转载须知。
- 业界 | 23篇论文入选CVPR2017, 商汤科技精选论文解读
- 商汤科技20篇论文入选ICCV 2017,披露最新研究主线
- [CVPR2017] CFNet 论文解读
- 直击CVPR2017:商汤科技打造技术盛宴23篇论文刮起中国风 By 机器之心2017年7月25日 10:14 近日,CVPR2017 在夏威夷如火如荼地进行,作为全球计算机视觉顶级会议,CVPR
- CVPR2017论文
- 商汤科技43篇论文横扫2017ICCV 实习生摘得五项世界冠军
- 从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域|ICCV 2017
- CVPR 2016|商汤科技论文解析:行为识别与定位
- CVPR 2016 | 商汤科技论文解析:物体分割
- CVPR2017论文分类汇总
- CVPR2017论文分类汇总
- 技术解读:腾讯优图12篇论文入选 ICCV 2017
- 商汤科技43篇论文横扫2017全球顶级视觉学术会议 实习生摘得五项世界冠军
- 科技论文
- CVPR 2016|商汤科技论文解析:人脸检测中级联卷积神经网络的联合训练
- ICML 2016精选论文 | AI科技评论周刊
- CVPR2017 2D目标检测相关论文
- 科技论文写作
- Spring注解的快速入门(02)
- 数据结构之 栈stack 模板类(数组描述方法)
- 酷炫,谷歌地图可以带你遨游宇宙空间站啦
- 专访小学宝创始人蒋晟:离开百度、搜狗,他想凭借 AI 撬动4500亿小学课外辅导市场
- 联想研究院八高管首次集体亮相 解析AI战略
- 业界 | 23篇论文入选CVPR2017, 商汤科技精选论文解读
- 市值超过 2900 亿的海康威视半年净利润 32.92 亿元,同比增长 26.22%
- 刚刚发布语音交互系统,猎户星空又刷新了人脸识别世界纪录
- codeforces 462A Appleman and Easy Task
- IBM全球首席资讯安全架构师Chenta Lee 携认知安全重磅回归CSS2017
- 智能判断交通事故、人流轨迹,城市大脑获世界级学术荣誉
- 干货:细数视频交友SDK的开放策略
- 为了第一时间购买到vivo这款新机,所有人把门店围的水泄不通
- HDFS Federation机制