电影演员合作关系可视化(二)数据分析与可视化

来源:互联网 发布:混迹知乎的浩天哥 编辑:程序博客网 时间:2024/04/30 05:21

在上一篇《电影演员合作关系可视化(一)整体思路与爬虫编写》的基础上,对数据进行分析以及可视化。

一、数据预处理

对于获取的演员信息,是(演员1,演员2,演员3)的形式,的利用python中的itertools将其转换成一一对应的关系:

list(itertools.combinations(row,2))

这样就获得了合作关系数据:
演员1——演员2
演员1——演员3
演员2——演员3
具体的代码就不贴了,因为还是面向过程的代码,没有写成面向对象的形式,比较丑陋。

二、数据可视化

本次获取的3年内电影数据(2013.8-2016.8)共包含10203个节点和231885条边。说明演员有10203名(小电影演员真是个庞大的群体!!!),合作关系231885条。利用gephi 0.9.1对合作关系可视化如图所示:
这里写图片描述
这里的边太多了,影响了整体观感,所以把边去掉:
这里写图片描述
图中颜色越深,节点越大,代表该演员合作关系越多,你们猜猜最大的是谁?(文末公布答案)

三、数据分析

1.度分布
在本文的网络中,节点的度的大小就是合作次数的多少,通过度分布我们可以考察整个网络内的合作次数分布情况。
首先是平均度,也就是平均合作次数,Average Degree: 45.454。
这个数非常大有没有!平均每个演员居然合作过45次以上!
我们再看看度分布吧:
这里写图片描述
可见度高的节点很少,而度小的节点非常多,表现出明显的长尾特性。其实上面的平均度分布主要被这些大牌演员拉高了。这一现象在社交网络中十分常见。例如在知乎中,每个人回答的平均赞同数非常高,但是赞同数的中位数就很低了,平均数主要都是靠那些大V拉高的。虚拟的网络世界与现实又何尝不是如此,聚光灯下赢得万众喝彩的仅是少数,而更多的人则在每天苟且的重复中消耗着短暂的一生。

2.网络直径
该网络的网络直径为20。
这个该怎么理解呢?网络直径就是从一点到另一点的最大的路径长度。即在该合作网络中,距离最远的两人之间隔了19个人。

3.平均路径长度
该网络的平均路径长度为 5.3059。
即从一个人到另一个人平均隔着不到5个人。这个是不是很神奇?在1万多人中,一个演员想找的一个她可能从未谋面的演员,平均只要经过不到5个人!这一特性在复杂网络理论中称之为小世界现象。这又不得不提到六度分离理论(百度百科):

六度分离(六度区隔)理论(Six Degrees of Separation):“你和任何一个陌生人之间所间隔的人不会超过五个,也就是说,最多通过五个人你就能够认识任何一个陌生人。”根据这个理论,你和世界上的任何一个人之间只隔着五个人,不管对方在哪个国家,属哪类人种,是哪种肤色。

4.社区挖掘
在合作关系中,肯定有些人之间关系更加紧密,例如同处于一个片商的合作关系会更多,这里我们将关系紧密的演员划分到同一社区,用同一种颜色表示,就有了下图:
这里写图片描述

5.标签云
公布答案!与他人合作最多的20位老师:
这里写图片描述
有你的菜吗?

0 0
原创粉丝点击