你有没有想到,这样的观点挖掘引擎?

来源:互联网 发布:移动crm软件作用 编辑:程序博客网 时间:2024/05/16 01:04

闲暇之余做了个“观点挖掘”的程序,还谈不上工程。


这个观点挖掘的过程有点简陋,but,很有意思。我想你看了下面的过程,也猜不到我具体是怎么做的吧。


第一步,数据采集。模仿QQ截图,做了个能截屏的脚本。效果如下:

这样就得到一个截图(png、jpg等格式)。


第二步,数据预处理。用OCR技术,将图片里面的文字识别处理。例如下图:

经过识别后,将得到可编辑的文字,如下图:


第三步,数据挖掘。用文本挖掘的方法,对文本的关键字进行提取,并计算权重。目前已经有了成熟的英文关键字提取方法,但是,中文刚刚起步。如图:


第四步,数据可视化。关系图+人类自身的逻辑能力,会对数据进行组装理解。但是,不排除阅读体验非常差。可视化的结果常常给一些门外汉带来错判。一旦看不懂你的结果,就以为处理过程非常糟糕。


For example:


Somebody say :F************K..........


Anyway!这4步是最基本的。


结语:你有没有想到这样的观点挖掘引擎呢?没有,就赶紧动手做一个吧。如果担心精度问题,欢迎交流技术细节。


更多精彩内容,长按下面的二维码,关注微信公众号“谷震平的专栏”


内容来自:谷震平的专栏

原创文章,请勿侵权

觉得不错,就点赞吧



0 0
原创粉丝点击