豆瓣5.6分的《西游伏妖篇》评论有水军吗?

来源:互联网 发布:淘宝中小卖家扶持计划 编辑:程序博客网 时间:2024/04/29 21:01

本篇文章本打算先发在公众号,不过由于文中一些图片在微信上显示不清晰,所以首先发到了知乎上,大家如果看不清文章的图片,可以点击阅读原文。


这些天星爷与徐克的电影《西游伏妖篇》上映了,两大鬼才的作品吸引了很多粉丝的注意,当我们满怀期待的买了电影票之后,很多人却再一次被吴亦凡、林更新、包贝尔的演技所折服,一时间差评如潮,在豆瓣上评分一路跌到5.6分,然而在1月28日13点左右豆瓣评分突然飙升到了8.1分,之后又回到了5.6分。


很显然是水军在作怪,豆瓣也很快的进行了相关的处理,但是我们现在去看豆瓣评分还是会发现有多9.3%的五星好评,豆瓣的水军处理的彻底吗?对一些水军的短评做了删除吗?豆瓣没有进行任何说明,充满好奇心的我想要做一个彻底的调查。



抓取的数据:截至1月30日14点,西游伏妖篇豆瓣短评共计40105条,对数据进行清理删除之后还有36409条短评,包含短评发出的作者id、时间、内容等。



判断是否存在水军的思路有如下:

  • 是否存在有时间段五星评价数量多并且很集中

  • 给五星评价的用户中新注册用户比例是否很高

  • 相似言论是否过多


根据已经抓取的数据,我决定先从是否存在时间段五星评价很集中,豆瓣把时间戳隐藏在了每个评论中,时间戳可能进行了修改,我这里没有把它还原出来直接用了原始的数据,因为就算时间偏移,时间的间隔是没有变化的,还是能看出时间段的评分频率。


注意时间是错位的,根据时间戳换算的数据最新的一天是2006/04/03应该对应到2016/01/30,以后所有日期可以换算得到。


我把时间精确到短频数量较多的这几天,并且把时间间隔调到分钟,现在只看这些短评数量较多的这几日是否有异常。从整体的短评数量来看,是比较正常的,数据波动不是很大,刚上映两三天评论数量暴增,而后开始有下滑趋势。



既然整体的短评数量没有问题,那我们需要看两个点:

  • 是否存在一星短评的集中点

  • 是否存在五星短评的集中点


我们先按照短评给出的各种星级分别进行划分统计查看随着时间数量的波动。



单独提出0星和1星的短评进行统计,如下图1星的短评数量随时间的波动几乎与整体短评数量波动保持一致,没有某一特定时间节点1星短评突然上升之后又突然下降的情况。



再单独提出5星的短评进行统计。


五星短评数量随时间波动较为很明显,并且没有随着总体的波动而波动。甚至在一个时间段2006/03/20~03/21的时间点,准确来说是03/20下午2点到03/21上午12点之间,五星评价数量十分多,之后的五星短评的数量又猛地下降,异常值来了。


当然光从数量上没有说服力,我们可以再进一步看每个时间点五星短评的占所有短评的比例。


这样一来是不是更加明显了,五星短评在上述时间内不仅数量多而且占有比例非常高,并且在过了时间段之后基本上趋于平稳,现在我们需要去探索一下上述所说的时间点的评论是不是来自水军呢?我们继续去一探究竟。


下面就把这个时间段的所有的五星短评都拉出来看看,截取部分内容如下(用户ID为发出此评论的人):



光是此阶段有772条短评部分如上所示,怎么样?什么感受?短时间内高度重复的几个内容甚至使用一些相同的词语,赞美之词溢于言表,不是水军是什么呢?这仅仅是此阶段的一些五星短评,可能其他时间段还有一些,这里也不再去一一探索,结论已经得出:显然,豆瓣的这部电影还有不少的水军在,豆瓣并没有清理干净。


最后的彩蛋我们看看这些大兄弟都怎么说:

兄弟都这么说:


双王兄弟都这么说:


恭喜你看完彩蛋,但是还没有结束,正如评论区以及知乎社区各位知友所持有的态度一样,对于这种的争议比较大的影片,达不到五星的标准并且没有差到一星那么低的情况下,我们可以把所有的一星以及五星短评全部去掉之后综合评分。


把星级分为两组:0\1\5星级高低分组、2\3\4星级普通分组


先是综合两个分组所有星级:总分50分,总得分33.96分


去掉高低分组所有星级,保留普通分组:总分50分,得分31.73分


你怎么看?



原创粉丝点击