结合网页排名来做社会网络分析,挖掘核心人物

来源:互联网 发布:好听的未注册域名 编辑:程序博客网 时间:2024/04/30 13:26

基于中心论的社会网络分析法

基于中心论的分析主要有三个点:

1.点度中心度(考虑点的出入度,可直接找出网络中的中心点)
2.中介中心度(考虑路径的中介点,可发现网络中的中介者,或者叫桥梁)
3.接近中心度(考虑点与点的最短路径,可找出点的对网控制力量)
4.特征中心度(综合三个中心度考虑一个行动者中心性指标)

然而,这三种方法都忽略了点与点之间的相互作用, 只孤立地考虑点在网络中的地位,无法分析出”近朱者赤,近墨者黑”的现象.因此,我们引入了结合pagerank和HIT算法,从而更好地挖掘出网络中的权威人物.

Pagerank算法:

网页PageRank的计算基于两个假设:
数量假设: 在web图模型中,如果一个网页节点接收到的其他网页指向的入链数量越多, 那么这个页面越重要.
质量假设:指向页面A的入链质量不同, 质量高的页面会通过链接向其他页面传递更多的权重.所以越是质量高的页面指向页面A,则页面A越为重要.
—–在初始阶段, 每个页面设置相同的PageRank值,通过若干轮的计算, 会得到每个页面所获得的最终PageRank值.随着每一轮的计算进行,网页当前的PageRank值会不断得到更新,直至数值基本稳定,从而结束算法.

HIT算法:

Hub页面和Authority页面是HITS算法最基本的两个定义.
Authority页面: 与某个领域或者某个话题相关的高质量网页
Hub页面: 包含了很多指向高质量Authority页面链接的网页
类似于PageRank, HIT算法也包含两个假设:
基本假设1:一个好的Authority页面会被很多好的Hub页面指向.
基本假设2:一个好的Hub页面会指向很多好的Authority页面

HIT与PageRank的差异:

——HIT算法与主题密切相关,而PageRank算法是与查询无关的全局算法,根据这个差异, 我们可以以特征中心度来作为主题密切相关度的指标, 利用HIT算法, 计算点的authority_score,从而挖掘出网络中的核心人物.

实验分析:

实验使用的数据集: D. E. Knuth根据Victor Hugo(维克多.雨果)的小说Les Misèrables,《悲惨世界》,整理了其中的人物关系网络。网络中的节点表示小说中的角色,边表示两个角色同时出现在一幕或多幕中。规模:网络共有77个节点,508条边.出处:Knuth D E, The Stanford Graph Base: A Platform for Combinatorial Computing. Addison-Wesley, Reading, MA,1993

我们利用igraph工具, 对实验的数据进行处理, 分别对计算出来的degree(点度中心度), evcent(特征中心度), pagerank, authority_score进行排序,并选出前3个作为对比, 实验结果如下:

分析结果

degree排名前三的是: 男主人公Valjean, 情报打听者Gavorche, 男二号Marius
evcent排名前三的是:情报打听者Gavorche, 男主人公Valjean, 革命领袖Enjolras
pagerank排名前三的是:男主人公Valjean, 男二号Marius, 主教Myriel
authority_score排名前三的是:男主人公Valjean, 男儿号Marius, 女主人公Cosette

从实验中分析, 可以看出效果:authority_score > pagerank > degree > evcent

网络拓扑图:

网络拓扑图

具体的实验代码可以在我的github上查看:
https://github.com/Quincy1994/NewworkAnalysis

0 0
原创粉丝点击