连成人网站都用AI和ML做视频分类加标签了…
来源:互联网 发布:淘宝网汽车用品配件 编辑:程序博客网 时间:2024/04/28 23:38
来源:机械鸡
本文长度为1800字,建议阅读4分钟
本文为你介绍Pornhub的AI审核测试模型及国内业界领先的深度学习技术如何审核视频。
总部位于加拿大的“Pornhub”是一个免费色情网站,在美国英国都有分公司,是世界三大色情网站之一。
他们根据访客在线时长,制作了一張“谁最持久”的世界地图。大部分的国家观看色情影片的时间在7~10分钟之间,包括美国、欧洲、澳大利亚等等,非洲国家时间偏长,大多超过11分钟。
最奇妙的是中国大陆,统计数据显示,大陆人平均观看色情影片时间最长,平均14分钟左右。
上图来自人民网
Pornhub
前几天,成人色情网站Pornhub宣布,将基于面部识别技术来自动识别网站中的AV视频。在接下来的一年,该公司计划识别其视频库中所有500万个视频,并对视频进行高级分类:如场景(私人或公共场所)、女演员发色等。
新的AI系统让用户手动给视频打标签。下图显示了Pornhub的机器学习模型工作步骤:
从数千张图片中获得某色情明星的相关数据;
去除不正确的数据及模糊图像;
训练机器学习模型;
在包含数百万视频的视频库上训练模型;
使用反馈循环优化模型(回到第3步)。
每天访问量达8千万,上传10000个成人短片,给Pornhub造成巨大的工作压力。
Pornhub副总裁CoreyPrice说到开发该机器学习模型的初衷:“我们希望为粉丝们提供他们想要的东西,我们的新模型将能够为他们搜索到更准确的结果。”
AI如何鉴黄
目前,尚在测试阶段的Pornhub模型一个月内只扫描了大约5万个视频。以这个速度,扫描整个网站将需要近十年的时间,但还有优化的空间。
目前,各视频及直播平台的大流量促进了对“鉴黄”的需求,但使用人力鉴黄的成本高昂,且性价比低。据了解,直播平台映客曾经聘用800多人进行7*24小时的内容审核,占用了7000平米的审核基地。但事实上,直播的违规比例仅占0.04%甚至更低。
相比之下,AI审核则大大节约了时间和资金。全球各大科技公司也在积极投入使用AI审核违规内容:
Facebook正在开发一项新的系统工具,可以在直播视频中对违规内容进行自动标记;雅虎也对外开源了一套深度学习神经网络,专门用于自动检测图片是否含有色情内容;
国内的腾讯、阿里、百度、网易等多家公司,都已开始布局AI鉴黄这一具有潜力的产业。
插一句:当年中科院计算所有一个组在做这方面的国家项目,黄色内容识别。人家都是去国外采购影片和轮子的东东回来做训练数据的......
随着人工标注的数据越来越多,鉴黄的手段也越加丰富。目前常见的识别方法有:
机器学习+MD5识别:构建数据训练一个机器学习模型,识别视频图像的特征+文件名文本特征+文件格式,大小等特征;
识别动作:图像识别人物行为一直是一个难点,因为特定图片/视频中的人物、场景复杂多变,目前的困难是训练数据不足。不过,Google在今天发布了一个AVA人类动作识别数据集,绝佳助攻。
数据识别:比如Facebook的点赞、评论数,直播产品的送礼数、在线人数。
中国并不落后
百度云的解决方案
百度云利用业界领先的深度学习技术,判断一张图片的涉黄程度,分别给出色情、性感、正常三个置信度分值,用户可以根据业务需要利用置信度分值对违规图像进行自动过滤,及时避免产品涉黄风险,大幅降低审核人力成本。
视频审核:通过对视频、直播等多媒体抽帧检测,可以快速高效检测出不雅视频,快速杜绝产品涉黄风险
图片审核:可对用户上传的图片进行审核,避免用户上传色情等不雅图片,确保产品内容质量可控
另外,来自兰州大学的余伟也曾发布论文《基于图上半监督学习的色情视频识别算法》,以下是该论文的摘要:
本文针对以往算法,在色情视频检测时不能准确提取出镜头内完整前景区域的问题,提出了一种基于图上半监督学习的色情视频识别算法。
该算法借助视频中帧与帧之间在时间上表现出的连续性,准确的提取出视频中完整的前景区域,再对前景区域进行肤色和隐私部位检测以对该视频做出识别。该算法能够有效地避免接近肤色背景的干扰,提高视频中不良内容检测的准确率。
论文中的算法包括以下步骤:
首先,对视频进行镜头分割,获取镜头内的关键帧。将关键帧和它相邻的前后多帧图像进行帧间差分,对差分的多帧图像进行合并,提取出部分的运动前景区域。
然后,以提取的部分运动前景区域作为获取真实前景区域的先验信息。采用基于图上半监督学习算法(线性邻域传播)提取出完整的前景区域。
最后,建立肤色模型,分割出完整前景区域中的肤色区域。通过对肤色区域的色情内容检测识别出关键帧所属类别,借助关键帧的检测结果判断视频的类别。通过实验发现,该算法在不良视频检测中表现出较好的鲁棒性,检测准确率能够达到90%以上,能够有效的检测和阻断网络中传输的不良视频内容。
Paper:http://suo.im/4i4ZKt
- 连成人网站都用AI和ML做视频分类加标签了…
- 碉堡了!最大 18 禁网站用 AI 和 ML 来做视频分类加标签
- 成人网站Pornhub上线了AI系统,用计算机视觉识别艺人和姿势
- 全球最大成人网站 PornHub 也用上了AI,目的是让用户更 Happy
- 全球最大成人网站安全做得很不错……
- ML-KNN(多标签分类)
- 连黄牛党都开始玩AI了,春节抢票不加钱是回不去了
- 连黄牛党都开始玩AI了,春节抢票不加钱是回不去了
- 连黄牛党都开始玩AI了,春节抢票不加钱是回不去了
- AI | 这家创企用AI写文章摘要 连美国情报局都在用它
- 做了一个手机视频网站
- 智能手环都开始加屏幕了,连刷公交的都不例外
- 连陈老师都出来了
- 再次召唤灵魂画手!这个AI把你信手涂鸦都变成人脸
- AI:连漫画都看不懂,谈什么毁灭世界?
- 为什么做AI的都选Python?
- 为什么做AI的都选Python?
- 【ML】分类
- codeforces 835B The number on the board
- 一种网络数据传输加密算法的设想
- C#冒泡排序
- ubuntu 16.04 下安装 VNC viewer
- 二叉堆的实现及其基本存储结构
- 连成人网站都用AI和ML做视频分类加标签了…
- Web开发初步
- 【Java面试题】之分页功能的实现
- HPU 1007 严格递增连续子段 [模拟]
- Win系统自定义屏保教程
- 学习步骤
- C++字符串剔除首尾不可见字符
- 折半数组
- JDBC