Structure and inference in annotated networks - note

来源:互联网 发布:php防止sql注入代码 编辑:程序博客网 时间:2024/04/25 19:25
1.2 大多数网络数据伴随着描述节点的属性的注释或元数据。网络中的边也具有元数据信息。这篇文章:扩展对网络的分析直接结合元数据。基于统计推断。社团划分:分层结构:一组节点,组内节点密集超过组间节点。异配结构:组内节点稀疏

1.3通过社团划分检测出的一些社团,与明显的特性或功能相关。但是这种情况其实是特例。

1.4 统计推断的方式最好。将节点的元数据结合到社团划分问题中。好处:1)提高社团划分精确度;2)在社团划分中,元数据不是作为先验知识,而是找到和量化元数据与社团间的关系,一个关系存在,就用来提高结果,没有关系就返回基于网络结构的社团;

1. 5 3)可以能够在网络的竞争划分情况之间的选择。将元数据与可能的划分情况对应,就可以按照预定方向进行划分。(比如熟人可以根据年龄、性别进行划分)。如果没有基于一种属性合适的划分,算法会告知我们。

1.5 4)一旦找到一种好的划分社团的属性,就可以预测社团内我们只知道元数据或少量信息的节点的关系。

1.6 文章方法与半监督学习方法相似。(主动学习)

2.1 使用贝叶斯统计推断技术构造一个具有特定功能的生成网络模型。

2.2 模型是随机块模型的修改版本。修改有两个:1引入节点度度量(每个节点连接的数量),2通过一系列先验概率引入一种节点元数据依赖。节点的先验概率成为一个元数据的函数, 用来将元数据合并到计算。

2.3 n 个节点的无向网,节点用整数 u 表示。划分成 k 个社团.

一个节点 u 属于一个社团,表示成 Su 属于 1…k .

最简单的情况:元数据是有限的K个离散无须的值。节点 u 的元数据表示成 Xu

2.4 元数据X={Xu}  度d={du}.生成网络的步骤:1根据 u 的元数据 xu, 计算将节点 u 分配到一个社团 s 的可能性。表示成 rsx。 所以全部的先验概率是:

节点间边存在的可能性:

2.5 社团发现采用极大似然法拟合模型来观察网络数据。给定一个网络,定义他的邻接矩阵A是个nxn的实对称矩阵,其中 auv = 1表示节点u和节点v之间有边。然后可能性就可以表示成:

where  is the k× k matrix with elements st and the

sum is over allpossible community assignments s.

2.6 使用EM算法,决定最有可能的极大相似度。根据这个EM算法得出最佳参数值:

q是后验概率。

先验概率说明了元数据与社团的关系,后验概率说明节点属于哪个社团。

2.7 传统使用门特卡罗重要性抽样。这里使用基于置信传播的方法。

2.8如果元数据是有序并连续的值。算法就不一样。先验概率P(s|x)变成一个连续的函数。

最佳的可能性rsj用方程给出:

使用伯恩斯坦多项式。

 

A两个实验:第一个是metadata与社团的相关性对实验的影响。第二个是将已有的四个社团结构的网络分成2部分,但不破坏已有的结构。使用metadata,即使相关性很小依然比不使用,成功率高。

3.A.3 元数据包含越多信息,算法的性能会相应的提高。

3.A.4 在Cin-Cout差距越大的网络中包含更明显的社团结构,并且算法能够可靠的将节点分到正确的社团中。随着元数据与社团相关性水平提高,算法的成功率提高。

3.A.5 算法使用元数据比不使用好。

3.A.6 当Cin - Cout低于检测阈值的时候,只基于网络结构性的算法就不能检测出社团。

3.A.7 当社团结构中 元数据不包含信息的时候,算法就会忽略他。

 

B有三个实验:第一个是学校学生。算法能够实现选择不同的情况来实现划分。如果metadata不能帮助找到好的划分情况,则不使用。第二个是食物链网络。第三个是互联网图。

 

4.2 一些这个工作的扩展:1考虑metadata更多的类型。2.发现其他网络结构:分层的结构、排名、潜在空间。3用于关系推理、元数据推理。

 

实现:性能,时间主要花在置信传播计算。置信传播少于20步。

并且减少了EM迭代的次数,丢掉失败的收敛结果。限制到20或100步。因为EM算法

有时会收敛到错的情况。

 

1 0
原创粉丝点击