谷歌开源TensorFlow Object Detection API物体识别系统

来源:互联网 发布:淘宝产品参数 编辑:程序博客网 时间:2024/06/06 10:00

近日,谷歌宣布开源其内部使用的 TensorFlow Object Detection API 物体识别系统,以为机器学习社区做出贡献,帮助打造更好的计算机视觉模型。

在谷歌,研究人员开发了最高水平的计算机视觉机器学习系统,不仅可以用于谷歌自身的产品和服务,还可以推广至整个研究社区。创造能够在同一张图片里定位和识别多种物体的机器学习模型一直是业内的核心挑战之一,谷歌宣称自己已投入大量时间训练和实验此类系统。

其中一个模型在示例图片中(来自 COCO 数据集)对象识别的效果

2016 年 10 月,谷歌内部的物体识别系统达到了业内最佳水平,在 COCO 识别挑战中名列第一。自那时起,该系统为大量文献提供了结果,并被一些谷歌的产品所采用,如 NestCam,同样的理念也被识别谷歌街景街道名称和门牌号的 Image Search 采用。

谷歌现在通过 TensorFlow Object Detection API 把该系统开源给更大的研究社区。这个代码库是一个建立在 TensorFlow 顶部的开源框架,方便其构建、训练和部署目标检测模型。设计这一系统的目的是支持当前最佳的模型,同时允许快速探索和研究。它的第一个版本包含:

  • 一个可训练性检测模型的集合,包括:


  • 带有 MobileNets 的 SSD(Single Shot Multibox Detector)

  • 带有 Inception V2 的 SSD

  • 带有 Resnet 101 的 R-FCN(Region-Based Fully Convolutional Networks)

  • 带有 Resnet 101 的 Faster RCNN

  • 带有 Inception Resnet v2 的 Faster RCNN

  • 上述每一个模型的冻结权重(在 COCO 数据集上训练)可被用于开箱即用推理。

  • 一个 Jupyter notebook 可通过我们的模型之一执行开箱即用的推理

  • 借助谷歌云实现便捷的本地训练脚本以及分布式训练和评估管道

SSD 模型使用了轻量化的 MobileNet,这意味着它们可以轻而易举地在移动设备中实时使用。在赢得 2016 年 COCO 挑战的研究中,谷歌使用了 Fast RCNN 模型,它需要更多计算资源,但结果更为准确。

如需了解更多细节,请参阅谷歌发表在 CVPR 2017 上的论文:[1611.10012] Speed/accuracy trade-offs for modern convolutional object detectors

准备好了吗?

这些代码在谷歌的计算机视觉应用中非常有用,谷歌希望本次开源能够将这份便利带给所有人。谷歌同时也欢迎更多贡献者参与进来。现在,你可以下载代码,使用 Jupyter notebook 尝试在图片中识别物体,也可以开始在 Cloud ML 引擎中训练你自己的识别器了。

  • 代码:tensorflow/models

  • Jupyter notebook:tensorflow/models

  • Cloud ML:cloud.google.com/blog/b

原创粉丝点击