机器学习实践系列之9 - 视频结构化

来源：互联网发布：ubuntu麒麟编辑：程序博客网时间：2024/05/21 15:04

视频结构化 是个沉重的话题，从前背景建模到目标检测，再到目标跟踪，这里面涉及到的东西太多。目前各路安防厂商，视频分析团队都在大打结构化的大旗，公安行业也逐渐开始有了一定的应用，大华”睿智”、海康“猎鹰”、宇视“昆仑”，名字取的一个比一个牛逼……

利益相关，对此，作者不予褒贬、不置可否。

目前并没有一个标准的视频结构化的定义，到底什么是视频结构化，哪些内容需要结构化？没有人能够说得清。

本节只对 视频结构化 进行一个自以为是的定义，后续作者会专门有系统的篇幅来进行介绍。

• 视频结构化的定义

通过视频分析，将视频中的人、车、场景等进行提取，转换为简单、可理解、可描述的语义信息。

该语义信息应该具备以下特点：

1）简单性
简单性在于对于数据量的大幅度压缩，大大减少数据存储空间，只保留其中的 “有用” 信息。
2）准确性
对于目标特征的抽象必须真实反应目标的特点，关键信息描述不能有偏差。
3）完备性
完备性约定场景目标必须被全部提取，不应该有所遗漏。
4）高度还原
通过所提取的语义，应该能够反向重建出场景，实现逆向还原。
还原度是衡量结构化好坏的一个综合指标。

• 视频结构化的难点

目前，视频结构化 的关键难点在于语义定义，对于车辆结构化，其定义相对明确：

车型、车标、颜色
车牌号
年检标
驾驶员特征
……

描述一个静态车是简单的，但是如果在这个基础上再加上行为，车辆停了多久？有无徘徊？难度就会变大。

再进一步，这个目标变成人，ok，这里面的问题就可能是：

这个人是谁？
男的女的，是否老外？
单眼皮双眼皮？
今天有没有洗脸？
整过容没有？
……

晕了，对问题列一个List，10页word 恐怕不够，干脆截个图算了，您老自己看，看来明白了，难度一 就在于 某些对象不容易结构化。

另外，受限于视频分析的准确性问题，检测结果往往有偏差，对应漏检、误检，难度二 就是 视频分析结果不准确。

再者，对于已经检测到的目标，如何抽象描述？选择题 or 填空题，给个int值还是卷积出的向量，难下定论。难度三语义抽象等级。

• 视频结构化的未来

作者给个大胆的预测，视频结构化 需要分阶段，分级去处理。Suppose对于一个给定场景，需要分割出：

1. 背景重建出的场景（图片）
2. 场景的抽象理解
3. 对应的场景目标列表
3.1 人的列表
3.1.1 穿着描述，上衣、裤子、背包、鞋子、手提袋……
3.1.2 人的行为分析，路线、徘徊、异常、人物关系
3.1.3 人脸（图片）
3.2 车辆列表
……
3.3 其他目标列表
……

对于目前阶段，结构化的目标要主要定位在能够解决问题，同时能够降低视频存储的数据量，这才是其价值。

以上内容一家之言，属个人理解，希望大家能够互相切磋、多多交流！

3 0