深挖:知乎起诉的微博营销号「大神说」

来源:互联网 发布:office官方卸载软件 编辑:程序博客网 时间:2024/05/01 14:45

文章中超链接无法打开、图片不清楚可以点击阅读我在知乎专栏同步推送的文章。


关注知乎维权的知友一定都认识这位:大神说,这位新浪微博博主通过大量转发未经授权的知乎回答文章等在新浪微博狂吸五百多万粉,甚至超过了知乎官方的微博账号,对这件事情不了解的知友可以先阅读这两篇文章(知乎大神在被知乎起诉之后改名大神说):


  • 知乎起诉微博营销号,立案了 - 知乎专栏

  • 知乎起诉微博营销号「知乎大神」,快开庭了! - 知乎专栏


以及相关的一篇回答:新浪微博上的「知乎大神」是谁?涉嫌侵权吗?


相信通过阅读以上三篇内容,大家对大神说都有了一个大体的了解。当然,今天我想说的不是版权问题,而是另一个问题:大神说的每条微博都能达到万评论以上,这些评论数据都是真实数据,还是说有很多刷出来的数据?如果是那么真实的评论有多少?


作为样例,我选取了大神说当前一条热门微博,评论数量高达11787条。




在翻阅评论区的时候,无意中发现了下面截图中出现的现象,我截取了一部分:看以下的图片如果说没有水军刷评论数量的情况我是不相信的。既然,确认了有刷评论的现象,我们继续探索那么有多少的评论是刷出来的呢?



由于有一万多条评论,人工检查是肯定不行的,这里我写了一个简单的脚本把这条微博下面的所有的评论数据抓了出来,部分数据截图如下。有一点需要注意的是:对于评论区,如果是是对单条评论进行回复的所有回复将不统计,只统计所有的评论。



除去对评论的回复即楼中楼之后,共计530条评论数据,对于单单发表情即以上截图中水军相似的特征的用户进行提取,共计126条水军评论,做成饼图如下所示(感谢知友@iGuo 的友情提醒水军特征不能让人信服,我这里这些评论做了文本聚类,效果如下所示,绿色为单独发表情的评论,与红色点表示的正常评论相去甚远,其中单独发表情的由于特征几乎一致所以重合在两三个绿色点上)


而从时间来看:水军的评论大部分在2月9日 01:03之后,此条微博的发出时间为:2月6日 17:36 ,而最后一条水军评论位2月15日 13:24 ,在这段时间内,共产生了202条单条评论,其中水军评论数量为:113条。



没有统计对于评论中详细的回复,即楼中楼,楼中楼中仍然有较多的水军,所以对于大神说的评论数量还是有待商榷。至于大神说的粉丝的一些情况,在下一阶段会抽空分析一下。




最后为了进一步确认2月9日 01:03 之后的水军比较集中,提取了整体的评论特征以及2月9日 01:03 之后的特征进行对比,如下所示。



进行文本聚类如下图所示:其中绿色评论表示的是2月9日 01:03 之后的评论

最后,希望知乎起诉能够早日成功,也希望各位在收到需要授权转载的私信的时候不要授权,杜绝这种拿别人的知识干货来赚钱行为。


文章中超链接无法打开、图片不清楚可以点击阅读我在知乎专栏同步推送的文章。

原创粉丝点击