文本反垃圾的原理和应用
来源:互联网 发布:阿里云快还是腾讯云快 编辑:程序博客网 时间:2024/06/05 00:45
随着移动互联网技术的日渐发展,垂直社区、社交平台、短视频应用、直播等互联网产品蓬勃发展,各种 PGC、UGC 也呈爆炸式增长,各种网友神回复让你不得不感慨高手在民间,但海量 UGC 中也夹杂着各种违规垃圾信息:新闻评论微商广告、金融社区中的诈骗信息、美女直播时的露骨评论、体育直播中的地域黑都非常影响用户体验。
因为触及政策法规,这些垃圾信息更成为了这些互联网产品的心头大患。面对越来越多样化的垃圾信息,如果只靠管理员人工审核和用户举报已经无法满足海量内容的审核需求,这时候就需要通过技术手段来做自动化运营,然而自主研发反垃圾应用对技术实力和数据积累的要求极高,专业的智能反垃圾云服务应运而生。
文本反垃圾原理
对文本垃圾,常规的审核方法是关键词识别和算法规则,算法规则也叫规则引擎,主要就是表达式的集合,这种方式识别准确率会提高很多。但垃圾内容升级进化速度太快,复杂字符重组、特殊符号等让常规审核方法也束手无策。简单的裸聊二字,在垃圾内容里有有非常多的演变:
文本反垃圾技术除了要识别出垃圾文本,另一方面不能还把正常内容也判定成垃圾信息,举个比较污的例子:
我们说的「口交」一词通过常规审核肯定是认定为垃圾内容,但当它出现在「港口交通」、「串口交接线」这样的语境里却是正常内容,很容易造成误判。
感觉以后都无法直面「港口交通」了呢。
那如何避免或降低这种复杂语义下的垃圾文本呢?
这时候我们就要依托语义分析来处理辨别。语义分析是依托深度学习技术和大数据技术,机器从亿级垃圾特征库中提取和不断添加新特征,通过反复学习更有用特征,来达到对复杂语义钟垃圾内容的精确判定。通过这两项关键技术,目前七牛平台上的易盾文本反垃圾的准确率可以达到 99.6%。
七牛云文本反垃圾能力
七牛云联合网易易盾、达观数据把文本反垃圾技术加入到 X 次元口袋,帮助用户优雅地对抗文本垃圾。
- 99.6% 拦截率,十万分之一误判率
- 内容安全平均检测时间<100 ms
- 根据用户行为特征提供个性化内容安全功能
- 对变种垃圾的极速适应能力
应用场景
在新闻、社交、论坛、博客、小说等 UGC 产品中的应用都需要用到文本反垃圾,无论是跟帖评论还是用户 ID、个性签名,只要有 UGC 的地方,就有垃圾信息产生。不良信息影响用户体验,不利于产品健康发展。七牛云平台上的文本反垃圾服务基于海量特征库、信誉库,针对社交类产品的垃圾信息特点,采用社交广告特征匹配、色情信息模型匹配、暴恐信息特征匹配、信誉库匹配等手段,对垃圾信息加以过滤。
通过使用七牛平台的文本反垃圾,无需将存储在云端的文本下载到本地、经过文本反垃圾后再上传到云端供用户访问,浪费带宽资源。七牛直接将文本反垃圾等接入数据处理平台,可以让用户直接一站式完成从存储、反垃圾处理到分发的过程。
有了文本反垃圾盾牌的保护,你只需要负责产品的运营和开发,不用担心被垃圾文本污染,安心成为众多互联网产品中的「一股清流」。
开启七牛文本反垃圾三步走
以网易易盾的文本反垃圾服务为例
第一步:点击开启使用,开启服务
第二步:在七牛的对象存储 bucket 中,获取您想要检测文本(txt 格式)的 URL
第三步,在文本 URL 后面加上commad:?ydtext
返回的结果(已格式化,便于阅读):
X 次元口袋
把数据的场景做深做透,真正帮助用户缩短从想法到产品的距离,是七牛一直以来的使命。从 2011 年至今,围绕数据管理打造场景化 PaaS ,我们已经服务了超过五十万家客户,承载了超过 2000 亿张图片,10 亿小时视频。
对互联网开发者来说,一站式在线数据管理一定要包含针对海量数据的零运维、高可用、高性能的数据处理服务,以便轻松应对图片、音视频及其他各类数据的实时、异步处理场景。目前,七牛提供的数据处理服务已经日处理数近百亿次,除了提供基础数据处理,还基于容器技术打造了易扩展、易部署、高自由度的自定义数据处理接入平台,与七牛数据处理服务无缝兼容使用,形成围绕数据展开的富媒体生态体系。
「X 次元口袋」就是介绍这些富媒体数据处理服务的一档栏目。
点击「阅读原文」去X 次元口袋看看!
- 文本反垃圾的原理和应用
- 反卷积网络在文本表征方面的应用
- 图像的反色原理和实现
- 垃圾回收的优点和原理
- 垃圾回收的优点和原理
- 垃圾回收的优点和原理
- Java垃圾回收的优点和原理
- 垃圾回收的优点和原理
- 反外挂的原理
- 关掉EMOS的反病毒及反垃圾服务。
- 163和126邮箱纯粹的反垃圾技术太差了!
- 纯粹技术缺乏业务意识的163和126邮箱(反垃圾)
- 反垃圾云服务技术和基于二进制高效的对象序列化类库 - MessagePack
- JVM原理和垃圾回收
- java垃圾回收器的方法和原理
- java语言中垃圾回收的优点和原理
- 总结Java垃圾回收器的方法和原理
- Ajax的原理和应用
- J2EE学习笔记(三)
- LeetCode 27 Remove Element题解
- CLLocationManager定位坐标不准确问题以及WGS_84转GCJ_02坐标位置纠错的方法
- Pandas常用笔记
- win7低版本升级到win7旗舰版的方法
- 文本反垃圾的原理和应用
- 3 InetAddress
- Android shape属性
- shell 脚本之 Function 功能的使用
- hadoop基础----hadoop实战(九)-----hadoop管理工具---CDH的错误排查(持续更新)
- 微信js-sdk使用流程
- 单独设置UIView的坐标x或y或width或height
- machine learning 小结
- 浅析用js读取xml的方法