电影演员合作关系可视化(二)数据分析与可视化
来源:互联网 发布:混迹知乎的浩天哥 编辑:程序博客网 时间:2024/04/30 05:21
在上一篇《电影演员合作关系可视化(一)整体思路与爬虫编写》的基础上,对数据进行分析以及可视化。
一、数据预处理
对于获取的演员信息,是(演员1,演员2,演员3)的形式,的利用python中的itertools将其转换成一一对应的关系:
list(itertools.combinations(row,2))
这样就获得了合作关系数据:
演员1——演员2
演员1——演员3
演员2——演员3
具体的代码就不贴了,因为还是面向过程的代码,没有写成面向对象的形式,比较丑陋。
二、数据可视化
本次获取的3年内电影数据(2013.8-2016.8)共包含10203个节点和231885条边。说明演员有10203名(小电影演员真是个庞大的群体!!!),合作关系231885条。利用gephi 0.9.1对合作关系可视化如图所示:
这里的边太多了,影响了整体观感,所以把边去掉:
图中颜色越深,节点越大,代表该演员合作关系越多,你们猜猜最大的是谁?(文末公布答案)
三、数据分析
1.度分布
在本文的网络中,节点的度的大小就是合作次数的多少,通过度分布我们可以考察整个网络内的合作次数分布情况。
首先是平均度,也就是平均合作次数,Average Degree: 45.454。
这个数非常大有没有!平均每个演员居然合作过45次以上!
我们再看看度分布吧:
可见度高的节点很少,而度小的节点非常多,表现出明显的长尾特性。其实上面的平均度分布主要被这些大牌演员拉高了。这一现象在社交网络中十分常见。例如在知乎中,每个人回答的平均赞同数非常高,但是赞同数的中位数就很低了,平均数主要都是靠那些大V拉高的。虚拟的网络世界与现实又何尝不是如此,聚光灯下赢得万众喝彩的仅是少数,而更多的人则在每天苟且的重复中消耗着短暂的一生。
2.网络直径
该网络的网络直径为20。
这个该怎么理解呢?网络直径就是从一点到另一点的最大的路径长度。即在该合作网络中,距离最远的两人之间隔了19个人。
3.平均路径长度
该网络的平均路径长度为 5.3059。
即从一个人到另一个人平均隔着不到5个人。这个是不是很神奇?在1万多人中,一个演员想找的一个她可能从未谋面的演员,平均只要经过不到5个人!这一特性在复杂网络理论中称之为小世界现象。这又不得不提到六度分离理论(百度百科):
六度分离(六度区隔)理论(Six Degrees of Separation):“你和任何一个陌生人之间所间隔的人不会超过五个,也就是说,最多通过五个人你就能够认识任何一个陌生人。”根据这个理论,你和世界上的任何一个人之间只隔着五个人,不管对方在哪个国家,属哪类人种,是哪种肤色。
4.社区挖掘
在合作关系中,肯定有些人之间关系更加紧密,例如同处于一个片商的合作关系会更多,这里我们将关系紧密的演员划分到同一社区,用同一种颜色表示,就有了下图:
5.标签云
公布答案!与他人合作最多的20位老师:
有你的菜吗?
- 电影演员合作关系可视化(二)数据分析与可视化
- 电影演员合作关系可视化(一)整体思路与爬虫编写
- 可视化与多维数据分析
- 数据可视化、信息可视化与知识可视化
- 数据可视化漫谈(二)
- python 数据可视化(二)
- PYTHON数据可视化(二)
- 下一代数据可视化分析系统的七个特征(二)
- 数据可视化二:Matlab数据可视化(一)
- 数据可视化三:Matlab数据可视化(二)
- python数据分析(十四)-matplotlib 绘图与可视化
- 探索性数据分析与可视化
- 数据分析与可视化工具小谈
- 51 Job招聘数据分析与可视化
- 数据可视化工具分析
- python数据分析(数据可视化)
- 数据分析-可视化数据分析
- 图分析与可视化
- 数字签名是什么
- 反向传播算法
- iOS基础:UIAppearance
- git使用
- spring + spring mvc + mybatis 项目整合的异常分析
- 电影演员合作关系可视化(二)数据分析与可视化
- 基于NX的研发产品设计管理平台实现(十五)-数据查询2
- 封装类网易新闻评论TextView,监听键盘
- 【Leetcode】226. Invert Binary Tree 【递归】【层次遍历】
- c++ enum 类型
- 安卓kernel自主唤醒系统方法—设置alarm
- #208 Assignment Operator Overloading (C++ Only)
- 编译条件
- uva 12589 dp