长微博识别—让图片里的文字走出来!

来源:互联网 发布:手机淘宝店铺怎么描述 编辑:程序博客网 时间:2024/04/29 08:02

(来自文通 杨晓伟)

长微博是通过图片发布文字信息的一种形式,起因是微博通常不得超过140字,故将文字转化为点阵图像发布。长微博最主要的作用是突破140字限制,但后来通过附带相应文字版本的链接演变为博客和长文章的入口。

 

由于长微博的引入,微博与生俱来的“碎片化传播”特征发生了明显变化。迎合“快餐文化”而出现的微博,通常将字数限制在140字,使得信息“碎片化”,进入日常生活的“边角”时间。而长微博则非常成功地将博客的功能集成到微博中,使得微博用户时常通过长微博或者其附带的博客链接阅读长文。长微博的引入使得博客和微博的联系更加紧密,区别更小,并相互促进——“话题构造在博客空间,而舆论发酵却在微博平台”。用户通过长微博或博客更充分地消化信息,而通过微博发表观点,将更多人引入话题的讨论。

 

互联网时代人人都是自媒体,人人都有麦克风,5.91亿的中国网民都在通过论坛、贴吧、微博、SNS、博客等网络平台发表言论,参与交流,汇集成网络民意,形成网络舆论。在经过2012年网络监督年、2013年微博反腐年等一系列的网络事件,各政府及企业越来越关注网络舆情动态。

 

 

但是长微博和普通的论坛、贴吧有本质的区别,因为长微博是通过图片发布文字信息。这也就意味着对于长微博内容的分析不可能像对于论坛帖子一样,无法做到直接把文字拿来分析。

文字信息存放在图片里,这一致命的缺点,导致了长微博成为某些不法分子危害网络的不良工具。

传统的网络舆情监测系统,只能针对网络上的文字来进行抓取、分析、筛选、判断。一旦遇到长微博这种图片类型的内容,只能望洋兴叹!无法获取图片里的文字信息,就无法正确判断图片带给网络到底是利还是弊。只能放任一些携带违法内容的图片流窜于网络,危害网民。

长微博让人们享受生活“边角时间”带来的速食文化,这毫无疑问是大有好处的。但是那些网络不法分子,一旦利用长微博发布一些危害国家、人民和社会的不良内容。让暴力、色情、犯罪这些违反人伦道德的内容肆虐在网络上,人们被迫的耳濡目染,让那些没有分辨是非能力的青少年接受负面的教育影响,带来的后果是致命的,灾难性的。所以我们要做的就是确保收到的每一条长微博,都是要干净的、都是要健康的。

 

最核心也是最关键的一步工作,就是要正确识别长微博里的文字内容。做到这一步,我们就可以像分析论坛里的帖子一样,对图片做出正确的判断,究竟是放行还是枪毙!

OCR文字识别技术在这个节骨眼上发挥了巨大的作用。

长微博生来各不相同,背景的颜色五花八门,图文混排,文字在图上,形形色色的长微博充斥在我们的网络世界当中,想要把长微博中的文字识别出来难上加难。

清华大学图文实验室,从国家863计划开始,一直致力于图像文字识别,也就是OCR识别技术。在丁晓青教授的带领下,目前终于攻克了长微博这种复杂背景图片的上的文字识别。在和北京文通科技有限公司的强强合作下,成功把这一识别技术应用在舆情监测的领域,造福了网络世界。让那些污染我们眼睛和心灵的垃圾长微博被扼杀在萌芽之中。

这款长微博识别系统,不仅能对长微博有效的进行版面分析,精确定位到文字内容,而且可以很好的进行二值化处理,把文字内容识别出来,让长微博内容的监测不再有技术门槛。

Inernet自从面世以来,就备受争议。我们应该自觉的维护网络世界,还网络世界一片净土。拒绝传播不良的图文信息。当然如果有人不自觉的想以身试法,那我们就应该拿出OCR识别技术这样的利器来维护我们的权益,让危害无处藏身。

保护地球,人人有责。同样,保护我们虚拟的网络世界,同样刻不容缓。

北京文通科技有限公司相信,在清华大学技术的带领下,我们一定能把OCR技术推广到各行各业,让技术服务于社会,让OCR技术绽放异彩!

 

1 0
原创粉丝点击