KANKAN AI不良信息过滤技术：用数据证明自己是最好的

来源：互联网发布：路由器80端口转发编辑：程序博客网时间：2024/05/01 18:46

“潮水终有退去的时候，但是随之而来的是更为汹涌的潮水。”这就是2017年互联网给人的第一印象。直播百团大战的局面终于回归了平静，在锐减近六成平台后，平静的局面变成头部平台在这个红利期已过的行业围绕内容和社交这两个焦点，各显神通惨烈厮杀。直播的潮落对应的是短视频的崛起，在以内容为王的口号引领下，这个2017年新流量入口挥手告别草莽时代，终于看到了一条阳关大道，裹挟着一轮一轮融资、估值、IPO，在资本的助推下占到了互联网的风口浪尖上，开始在短视频创业潮中狂飙突进，殊不知内容里的暗礁即将让所有人都面临当头一棒。

成也内容、败也内容

所有以内容为主旋律的互联网项目敲响警钟的，是最近一次著名的“K12领域竞争”，小猿搜题与百度作业帮互怼，争执不休。孰是孰非在法律宣判没有来临前我们可以暂且放下，但是在“内容”对所有行业发展的愈来愈重要的今天，高效审核制度的建立我们却等不了了。大量的不良信息充斥于各种平台、营运、社区、游戏，甚至于不良信息可以称为“竞争”的筹码打压自己的竞品，都是最直观的体现。甚至于互联网公司标杆的facebook，都不得不新增了3000名负责内容审核的员工，用人海战术来杜绝泛滥于平台上的各种不良信息，避免再次遭受色情、暴力、犯罪这些不良内容对其品牌以及用户的损害。

最先感受到不良内容对其发展造成阻碍的应该是直播平台。2016年，政府出台了一系列法律法规直至色情内容泛滥的直播平台，《信息网络传播视听节目许可证》以及「双资质」的要求让靠“色情”等不良内容吸睛而野蛮生长的直播平台直接被腰斩，大批不具备监管部门所要求的牌照的公司岌岌可危，数十家平台一夜人去楼空。不仅如此，各种短视频、视频平台也受到了波及，各种影视作品下架无数。最近，各大新闻资讯平台、自媒体也没能幸免，纷纷因内容审核不过关，违反《网络安全法》被立案调查，并责令其限期整改，互联网内容创业局面之惨让人不经感叹成也内容，败也内容。

内容审核的尴尬局面

事实上内容审核一直都有，互联网最早的内容审核方向主要集中在涉黄问题上，最初的审核精度让人不忍直视，只要图片中有黄色，便会被认定为涉黄;第二代的内容审核方式便是当年被人诟病无数的“绿坝”，这款旨在避免青少年受互联网不良信息影响和毒害的软件识别精度虽然上升了，但是准确率还是不尽人如意，简单的“中指”照片，或者任何“棍状物”都会被其识别为涉黄内容，在经历了2年多的发展后，绿坝还一度传出“因项目组经费紧张或遭遣散”的传闻。

互联网不良信息过滤、内容审核的尴尬终于随着互联网技术的发展而迎来了可能的解决办法，那就是人工智能;2016年网信办发布的《未成年人网络保护条例》明确鼓励并支持研发、生产和推广为成年人上网保护软件。技术发展再加上政策支持，内容审核技术的发展终于迎来了春天。

三国鼎立的人工智能审核时代

人工智能的内容审核方式是让机器在海量的图像、文本、视频数据下深度学习，不断提升系统对于各种类型内容的识别数量和判断精度，概括而言就是将深度学习应用于计算机视觉与图像的技术。截止到目前为止，国内人工智能产业中，以「计算机视觉与图像」作为核心技术发的公司数量已高达上百家，而细分到“不良信息过滤”这个环节上，可以与商业场景紧密结合，并在识别“色情”、“暴恐”、“时政敏感信息”、“小广告”等违规图片和视频方面有领先优势的国内出名的企业呈三国鼎立局面，这三家平台分别是优图、图谱和数峰。围绕内容在“色情”内容方面的尴尬局面，经过三次深度测试后，笔者请专业的评测人员对比三家平台在“鉴黄”方面能力进行了比较，这次测试准备了三个测试集共20000张照片样本，就图片的普通、性感、色情结果来看，三家平台在鉴黄的能力方面各有优势。

测试结果显示，优图：准确率87.75%，三项数据普普通通，如果给其鉴黄能力一个定位的话，那就是无英华可以自见,无名誉可以震俗的刘备;图谱：准确率76.96%，虽然色情图片识别率惊人，但是其他数据表现差劲，其定位应该是宁可错杀三千不放过一个漏网之鱼的曹操;至于准确率高达93.13%，并且有两项数据均高于图谱和优图的数峰（KANKAN AI是数峰旗下的人工智能品牌），其定位便是谈笑间樯橹灰飞烟灭的周瑜，数据全面占优。虽然鉴黄服务在数据表现方面的表现已经有了商业应用的可能，但是国内人工智能在内容审核、不良信息过滤方面的能力还说有很大的上升空间的。内容作为互联网应用或平台将来的发力方向，对各行各业都有至关重要的地位，引入更好的审核机制，从而建立健康的内容环境，在不良信息大行其道，甚至可能会成为竞品构陷自己的手段的今天已经是迫在眉睫，这也要求不良信息过滤技术需要更高的精度来满足其需求。

K12领域小猿搜题和百度作业帮之争背后在笔者看来最需要关注的是内容监管失责的问题。抛开这些，小猿搜题和百度作业帮在在线教育人工智能应用方面还是有突出表现的，作为人工智能最为重要的深度学习技术，小猿搜题将其应用于批改英语，百度作业帮将其应用于水平测试。他们都看到了人工智能对在线教育的良性促进作用，但是却没有用它们来帮助自己在内容监管方面作出更多的良性促进作用。技术应用除了助人也要帮己，加强人工智能对不良信息的过滤，让不良信息诸如“涉黄”内容远离用户也是十分重要的。

阅读全文

0 0