机器学习实践系列之9 - 视频结构化

来源:互联网 发布:ubuntu麒麟 编辑:程序博客网 时间:2024/05/21 15:04

       视频结构化 是个沉重的话题,从 前背景建模 到 目标检测,再到目标跟踪,这里面涉及到的东西太多。目前各路安防厂商,视频分析团队 都在大打 结构化的大旗,公安行业也逐渐开始有了一定的应用,大华”睿智”、海康“猎鹰”、宇视“昆仑”,名字取的一个比一个牛逼……

       利益相关,对此,作者不予褒贬、不置可否。

       目前并没有一个标准的 视频结构化的定义,到底什么是视频结构化,哪些内容需要结构化?没有人能够说得清。

       本节只对 视频结构化 进行一个 自以为是的定义,后续作者会专门有系统的篇幅来进行介绍。


• 视频结构化的定义

       通过视频分析,将视频中的 人、车、场景 等进行提取,转换为 简单、可理解、可描述的语义信息。

       该语义信息应该具备以下特点:

1)简单性

      简单性 在于对于数据量的大幅度压缩,大大减少数据存储空间,只保留其中的 “有用” 信息。

2)准确性

      对于目标特征的抽象必须真实反应目标的特点,关键信息描述不能有偏差。

3)完备性

      完备性 约定场景目标必须被全部提取,不应该有所遗漏。

4)高度还原

      通过所提取的语义,应该能够反向重建出场景,实现逆向还原。

      还原度 是衡量结构化好坏的一个综合指标。


• 视频结构化的难点

       目前,视频结构化 的关键难点在于 语义定义,对于 车辆结构化,其定义相对明确:

车型、车标、颜色

车牌号

年检标

驾驶员特征

……

      描述一个静态车是简单的,但是如果在这个基础上再加上行为,车辆停了多久?有无徘徊?难度就会变大。

      再进一步,这个目标变成人,ok,这里面的问题就可能是:

这个人是谁?

男的女的,是否老外?

单眼皮双眼皮?

今天有没有洗脸?

整过容没有?

……

       晕了,对问题列一个List,10页word 恐怕不够,干脆截个图算了,您老自己看,看来明白了,难度一 就在于 某些对象不容易结构化

       另外,受限于视频分析的准确性问题,检测结果往往有偏差,对应 漏检、误检,难度二 就是 视频分析结果不准确

       再者,对于已经检测到的目标,如何抽象描述?选择题 or 填空题,给个int值 还是 卷积出的向量,难下定论。难度三 语义抽象等级


• 视频结构化的未来

       作者给个大胆的预测,视频结构化 需要分阶段,分级去处理。Suppose对于一个给定场景,需要分割出:

1. 背景重建出的场景(图片

2. 场景的抽象理解

3. 对应的场景目标列表

       3.1 人的列表

             3.1.1 穿着描述,上衣、裤子、背包、鞋子、手提袋……

             3.1.2 人的行为分析,路线、徘徊、异常、人物关系

             3.1.3 人脸(图片

       3.2 车辆列表

             ……

       3.3 其他目标列表

             ……

       对于目前阶段,结构化的目标要主要定位在能够解决问题,同时能够降低视频存储的数据量,这才是其价值。

       以上内容一家之言,属个人理解,希望大家能够 互相切磋、多多交流!

3 0
原创粉丝点击