连成人网站都用AI和ML做视频分类加标签了…

来源：互联网发布：淘宝网汽车用品配件编辑：程序博客网时间：2024/04/28 23:38

来源：机械鸡

本文长度为1800字，建议阅读4分钟

本文为你介绍Pornhub的AI审核测试模型及国内业界领先的深度学习技术如何审核视频。

总部位于加拿大的“Pornhub”是一个免费色情网站，在美国英国都有分公司，是世界三大色情网站之一。

他们根据访客在线时长，制作了一張“谁最持久”的世界地图。大部分的国家观看色情影片的时间在7～10分钟之间，包括美国、欧洲、澳大利亚等等，非洲国家时间偏长，大多超过11分钟。

最奇妙的是中国大陆，统计数据显示，大陆人平均观看色情影片时间最长，平均14分钟左右。

上图来自人民网

Pornhub

前几天，成人色情网站Pornhub宣布，将基于面部识别技术来自动识别网站中的AV视频。在接下来的一年，该公司计划识别其视频库中所有500万个视频，并对视频进行高级分类：如场景（私人或公共场所）、女演员发色等。

新的AI系统让用户手动给视频打标签。下图显示了Pornhub的机器学习模型工作步骤：

从数千张图片中获得某色情明星的相关数据；
去除不正确的数据及模糊图像；
训练机器学习模型；
在包含数百万视频的视频库上训练模型；
使用反馈循环优化模型（回到第3步）。

每天访问量达8千万，上传10000个成人短片，给Pornhub造成巨大的工作压力。

Pornhub副总裁CoreyPrice说到开发该机器学习模型的初衷：“我们希望为粉丝们提供他们想要的东西，我们的新模型将能够为他们搜索到更准确的结果。”

AI如何鉴黄

目前，尚在测试阶段的Pornhub模型一个月内只扫描了大约5万个视频。以这个速度，扫描整个网站将需要近十年的时间，但还有优化的空间。

目前，各视频及直播平台的大流量促进了对“鉴黄”的需求，但使用人力鉴黄的成本高昂，且性价比低。据了解，直播平台映客曾经聘用800多人进行7*24小时的内容审核，占用了7000平米的审核基地。但事实上，直播的违规比例仅占0.04%甚至更低。

相比之下，AI审核则大大节约了时间和资金。全球各大科技公司也在积极投入使用AI审核违规内容：

Facebook正在开发一项新的系统工具，可以在直播视频中对违规内容进行自动标记；雅虎也对外开源了一套深度学习神经网络，专门用于自动检测图片是否含有色情内容；

国内的腾讯、阿里、百度、网易等多家公司，都已开始布局AI鉴黄这一具有潜力的产业。

插一句：当年中科院计算所有一个组在做这方面的国家项目，黄色内容识别。人家都是去国外采购影片和轮子的东东回来做训练数据的......

随着人工标注的数据越来越多，鉴黄的手段也越加丰富。目前常见的识别方法有：

机器学习+MD5识别：构建数据训练一个机器学习模型，识别视频图像的特征+文件名文本特征+文件格式，大小等特征；
识别动作：图像识别人物行为一直是一个难点，因为特定图片/视频中的人物、场景复杂多变，目前的困难是训练数据不足。不过，Google在今天发布了一个AVA人类动作识别数据集，绝佳助攻。

数据识别：比如Facebook的点赞、评论数，直播产品的送礼数、在线人数。

中国并不落后

百度云的解决方案

百度云利用业界领先的深度学习技术，判断一张图片的涉黄程度，分别给出色情、性感、正常三个置信度分值，用户可以根据业务需要利用置信度分值对违规图像进行自动过滤，及时避免产品涉黄风险，大幅降低审核人力成本。

视频审核：通过对视频、直播等多媒体抽帧检测，可以快速高效检测出不雅视频，快速杜绝产品涉黄风险

图片审核：可对用户上传的图片进行审核，避免用户上传色情等不雅图片，确保产品内容质量可控

另外，来自兰州大学的余伟也曾发布论文《基于图上半监督学习的色情视频识别算法》，以下是该论文的摘要：

本文针对以往算法，在色情视频检测时不能准确提取出镜头内完整前景区域的问题,提出了一种基于图上半监督学习的色情视频识别算法。

该算法借助视频中帧与帧之间在时间上表现出的连续性,准确的提取出视频中完整的前景区域,再对前景区域进行肤色和隐私部位检测以对该视频做出识别。该算法能够有效地避免接近肤色背景的干扰,提高视频中不良内容检测的准确率。

论文中的算法包括以下步骤：

首先,对视频进行镜头分割,获取镜头内的关键帧。将关键帧和它相邻的前后多帧图像进行帧间差分,对差分的多帧图像进行合并,提取出部分的运动前景区域。
然后,以提取的部分运动前景区域作为获取真实前景区域的先验信息。采用基于图上半监督学习算法(线性邻域传播)提取出完整的前景区域。
最后,建立肤色模型,分割出完整前景区域中的肤色区域。通过对肤色区域的色情内容检测识别出关键帧所属类别,借助关键帧的检测结果判断视频的类别。通过实验发现,该算法在不良视频检测中表现出较好的鲁棒性,检测准确率能够达到90%以上,能够有效的检测和阻断网络中传输的不良视频内容。

Paper：http://suo.im/4i4ZKt

阅读全文

0 0