社交网络图挖掘3--重叠社区的发现及Simrank

来源：互联网发布：php防sql注入代码编辑：程序博客网时间：2024/05/18 00:33

重叠社区的发现

社区-关系图（community-affiliation graph）
社区-关系图（community-affiliation graph）机制可以从社区生成社交网络图，规定如下：

计算通过上述机制生成图的概率，计算的关键点：

给定个体到社区的分配
Pc值；
如何计算边的概率。如果u和v是社区的非空集合M中每个社区的成员，并且不是其他社区的成员，那么u和v之间存在边的概率为： $P u v = 1 - \prod C i n M (1 - P c)$

那么E等于观察图中边集合的似然为：

\prod (u, v) i n E P u v \prod (u, v) n o t i n E (1 - P u v)

以连续方式对个体属于社区的隶属强度进行调整，直观上看，两个个体属于同一社区的程度越强，那么该社区促使两个个体之间有边的可能性也越大。改进的模型规则：

节点u和v之间存在边的概率为：

P u v = 1 - \prod C (1 - P c (u, v) = 1 - e - \sum C F u C F v C

那么E等于观察图中边集合的似然为：

\prod (u, v) i n E P u v \prod (u, v) n o t i n E (1 - P u v) = \prod (u, v) i n E (1 - e - \sum C F u C F v C) \prod (u, v) n o t i n E e - \sum C F u C F v C

对上式进行简化（某个函数最大化的同时也使得该函数的对数最大化），简化过程用到了log(ex)=x，于是有：

\sum (u, v) i n E l o g (1 - e - \sum C F u C F v C) - \sum (u, v) n o t i n E \sum C F u C F v C

最后采用梯度下降法来寻找成员到社区的最佳分配方案，以使该分配得到的似然使最大的。即选择一个节点x，朝着上式值最大的方向调整所有FxC的值。

社交网络上的随机游走者：无向图节点N上的游走者会以等概论走到其邻居节点。

思路：假定我们关注社交网络中的一个特定点N，我们想知道游走者从改点出发游走不远后到达的位置，我们可以修改转移概率矩阵，使得从任一节点转移到N的概率很小。

令M为图G的转移概率矩阵，如果节点i的度数为k，且i和j之间有边，则M中第i行第j列的元素为1/k，否则为0。
令β为游走者继续随机游走的概率，则1−β为游走者远程跳转到初始节点N的概率，令eN为一个列向量，v‘是下一轮位于每个节点的概率向量，则v‘和v的关系是： $v ‘ = β M v + (1 - β) e N$
注：由于初始的迭代中有振荡，因此整个收敛过程需要时间。收敛后可以看到所有节点与节点N的相似度矩阵。

阅读全文

1 0