Structure and inference in annotated networks - note

来源：互联网发布：php防止sql注入代码编辑：程序博客网时间：2024/04/25 19:25

1.2 大多数网络数据伴随着描述节点的属性的注释或元数据。网络中的边也具有元数据信息。这篇文章：扩展对网络的分析直接结合元数据。基于统计推断。社团划分：分层结构：一组节点，组内节点密集超过组间节点。异配结构：组内节点稀疏

1.3通过社团划分检测出的一些社团，与明显的特性或功能相关。但是这种情况其实是特例。

1.4 统计推断的方式最好。将节点的元数据结合到社团划分问题中。好处：1）提高社团划分精确度；2）在社团划分中，元数据不是作为先验知识，而是找到和量化元数据与社团间的关系，一个关系存在，就用来提高结果，没有关系就返回基于网络结构的社团；

1. 5 3）可以能够在网络的竞争划分情况之间的选择。将元数据与可能的划分情况对应，就可以按照预定方向进行划分。（比如熟人可以根据年龄、性别进行划分）。如果没有基于一种属性合适的划分，算法会告知我们。

1.5 4）一旦找到一种好的划分社团的属性，就可以预测社团内我们只知道元数据或少量信息的节点的关系。

1.6 文章方法与半监督学习方法相似。（主动学习）

2.1 使用贝叶斯统计推断技术构造一个具有特定功能的生成网络模型。

2.2 模型是随机块模型的修改版本。修改有两个：1引入节点度度量（每个节点连接的数量），2通过一系列先验概率引入一种节点元数据依赖。节点的先验概率成为一个元数据的函数, 用来将元数据合并到计算。

2.3 n 个节点的无向网，节点用整数 u 表示。划分成 k 个社团.

一个节点 u 属于一个社团，表示成 Su 属于 1…k .

最简单的情况：元数据是有限的K个离散无须的值。节点 u 的元数据表示成 Xu

2.4 元数据X={Xu} 度d={du}.生成网络的步骤：1根据 u 的元数据 xu, 计算将节点 u 分配到一个社团 s 的可能性。表示成 rsx。所以全部的先验概率是：

节点间边存在的可能性：

2.5 社团发现采用极大似然法拟合模型来观察网络数据。给定一个网络，定义他的邻接矩阵A是个nxn的实对称矩阵，其中 auv = 1表示节点u和节点v之间有边。然后可能性就可以表示成：

where is the k× k matrix with elements st and the

sum is over allpossible community assignments s.

2.6 使用EM算法，决定最有可能的极大相似度。根据这个EM算法得出最佳参数值：

q是后验概率。

先验概率说明了元数据与社团的关系，后验概率说明节点属于哪个社团。

2.7 传统使用门特卡罗重要性抽样。这里使用基于置信传播的方法。

2.8如果元数据是有序并连续的值。算法就不一样。先验概率P(s|x)变成一个连续的函数。

最佳的可能性rsj用方程给出：

使用伯恩斯坦多项式。

A两个实验：第一个是metadata与社团的相关性对实验的影响。第二个是将已有的四个社团结构的网络分成2部分，但不破坏已有的结构。使用metadata，即使相关性很小依然比不使用，成功率高。

3.A.3 元数据包含越多信息，算法的性能会相应的提高。

3.A.4 在Cin-Cout差距越大的网络中包含更明显的社团结构，并且算法能够可靠的将节点分到正确的社团中。随着元数据与社团相关性水平提高，算法的成功率提高。

3.A.5 算法使用元数据比不使用好。

3.A.6 当Cin - Cout低于检测阈值的时候，只基于网络结构性的算法就不能检测出社团。

3.A.7 当社团结构中元数据不包含信息的时候，算法就会忽略他。

B有三个实验：第一个是学校学生。算法能够实现选择不同的情况来实现划分。如果metadata不能帮助找到好的划分情况，则不使用。第二个是食物链网络。第三个是互联网图。

4.2 一些这个工作的扩展：1考虑metadata更多的类型。2.发现其他网络结构：分层的结构、排名、潜在空间。3用于关系推理、元数据推理。

实现：性能，时间主要花在置信传播计算。置信传播少于20步。

并且减少了EM迭代的次数，丢掉失败的收敛结果。限制到20或100步。因为EM算法

有时会收敛到错的情况。

1 0