人群与社会 第七周

来源:互联网 发布:企业文化怎么写 知乎 编辑:程序博客网 时间:2024/04/30 03:50

7.1 有向图

不对称的关系

有向图,出度,入度,联通图,强连通图,联通分量,强联通分量


7. 2 搜索引擎中权威值和中枢值

搜索引擎网页排名

hits算法

给定一个所有网页的有向图

每个网页都有中枢值和权威值。

初始化时,将每个节点的权威值和中枢值为1;

被很多网页指向:权威值高

指向很多网页:中枢值高

首先利用中枢值,更新每个网页的权威值,被指向网页的权威值等于指向该网页的所有的中枢值之和;

然后用权威值,更新网页的中枢值,即指向网页的中枢值为被指向网页的所有权威值的和;

迭代若干次,直到平衡;

对hits算法进行归一化,节点的值除以当前图的值的总和;

收敛;


7.3  网页排名

pagerank算法

每个节点将自己的当前值均分给当前邻居,自己的值为所有入向邻居分给他的值之和;


每行的数的和之和仍然为初始值之和;

而真实的pagerank的初始值为1/n;

每个网页将自己的值均分给所有出向邻居;

而每个网页的当前值为所有入向邻居给他的值之和;

如果每个出向邻居,则认为把值留给了自己;


7.4 同比缩减与等量补偿

pagerank的缺陷,网页不正当的互相引用,只吸收别人贡献的值,而自己的出值只给不正当引用的网页,造成了最后这种不正当引用的值很高。

同比缩减,引入一个参数s,0《s《1,经验值0.8~0.9之间,在每一轮结束后,给每个节点值乘以s,在加上一个(1-s)/n,即统一补偿;

随机游走到某个网页x,通过k步到达x的概率即为指向k步后,网页x的pagerank值。



0 0
原创粉丝点击