随机图 & 如何处理Power-law（幂律）分布的数据

来源：互联网发布：数据魔方下线了吗编辑：程序博客网时间：2024/05/22 03:18

在研究复杂网络中，研究者使用的主要工具就是随机图理论。该理论创始于上个世纪40年代。由Erdos等人创立。最早提出的经典随机图模型就是ER模型。在随机图中，边的出现成为概率事件。随机图和经典图之间最大的区别在于引入了随机的方法，使得图的空间变得更大，其数学性质也发生了巨大的变化，在随机图的经典数学模型中，随机图上的结点度数分布服从泊松分布。经过长达60多年的研究，最近由圣塔非的M.E.J Newman等人将随机图中的度数分布扩展到任意度数分布，我们称之为"广义随机图"，这使得对复杂网络的研究有了进一步的深入。虽然我觉得广义随机图理论在解决power-law问题上仍然存在这一定的缺陷。但是至少它在仿真上已经被证实了。

在数学中，随机图是指由随机过程产生的图^[1]。随机图的理论处于图论和概率论的交叉地带，主要研究各种经典随机图的性质。第一批关于随机图的结果是保罗·埃尔德什和阿尔弗雷德·雷尼在1959年至1966年的一系列论文中提出的^[2].

[编辑]定义与模型

随机图的“随机”二字体现在边的分布上。一个随机图实际上是将给定的顶点之间随机地连上边。假设将一些纽扣散落在地上，并且不断随机地将两个纽扣之间系上一条线，这样就得到一个随机图的例子^[3]。边的产生可以依赖于不同的随机方式，这样就产生了不同的随机图模型。一个典型的模型是埃尔德什和雷尼共同研究的ER模型。ER模型是指在给定 n 个顶点后，规定每两个顶点之间都有 p 的概率连起来（ $0 \leqslant p \leqslant 1$ ），而且这些判定之间两两无关。这样得到的随机图一般记作 $G_n^p$ 或 $ER n (p)$ ^[4]。

另一种随机图模型叫做内积模型。内积模型的机制是对每一个顶点指定一个实系数的向量，而两个顶点之间是否连接的概率则是它们的向量的内积的函数。

一般来说，可以定义任意两个顶点之间相连的概率，这个概率也被称为边概率。定义更广泛的随即图模型的方法是定义所谓的网络概率矩阵。这个矩阵的系数就是边概率，因此详细刻画了随机图的模型。

随机规则图是随机图中特殊的一类，它的性质可能会与一般的随机图不同。

[编辑]性质

随着边概率的不同，随机图可能会呈现不同的属性。对于最典型的ER模型，埃尔德什与雷尼研究了当顶点数目 n 趋向于正无穷大时，ER随机图的性质与概率 p 之间的关系。他们发现，当 p 的值越过某些门槛时，ER随机图的性质会发生突然的改变^[3]。ER随机图的许多性质都是突然涌现的，比如说，当 p 的值小于某个特殊值之前，随机图具有某个性质的可能性等于0，但当 p 的值大于这个特殊值以后，随机图具有这个性质的可能性会突然变成1。

举例来说，当概率 p 大于某个临界值 p_c(n) 后，生成的随机图几乎必然是连通的（概率等于1）。也就是说，对于散落在地上的 n 个纽扣，如果你以这样的概率 p 将两个纽扣之间系上线，那么你拿起一颗纽扣时就几乎能带起所有的纽扣了^[3]。

[编辑]随机树

主条目：随机树

随机树是随机图的一类。如同随机图一样，随机树是一个经由随机过程建立的树。随机树的一种生成方法是利用随机置换。首先生成一个 $\scriptstyle \frac{n}{2}(n-1)$ 阶随机置换函数，将 $\scriptstyle \frac{n}{2}(n-1)$ 个可能连起来的边标上 1 至 $\scriptstyle \frac{n}{2}(n-1)$ 的序号。然后按照从小到大的序号排列为原本没有边的图一一添加边。添加第 $\scriptstyle k$ 条边时，如果发现添加后会导致图中出现一个圈，那么就放弃添加这条边，而开始添加第 $\scriptstyle k+1$ 条边。最后得到的就是一个随机树^[5]。

[编辑]参见

玻色-爱因斯坦凝聚
腔体法
复杂网络
小世界网络
无尺度网络

[编辑]参考来源

^ Béla Bollobás, Random Graphs, 2nd Edition, 2001, Cambridge University Press
^ 第一篇论文发表于1959年，标题为“On Random Graphs I”（《论随机图 I》），Publ. Math. Debrecen 6, p290.
^ ^3.0 ^3.1 ^3.2 汪小帆,李翔,陈关荣. 《复杂网络理论及其应用》. 清华大学出版社. 2006. ISBN 9787302125051 （中文）.
^ Romeo Van Der Hofstad. Random Graphs and Complex Networks. Eindhoven University of Technology. 2011年2月25日 （英文）.
^ Alexandr Kazda. The Random Tree Process. Center for Discrete Mathematics and Theoretical Computer Science [2011-04-24].

如何处理Power-law（幂律）分布的数据？

[大] [中] [小]

　　1。比如两个自变量IV1和IV2都是高度偏态，在对其进行对数变换后转化为正态。但是IV1和IV2可能对因变量DV存在交互影响，那么在检测交互影响的时候interaction term是应该用lnIV1*lnIV2么？因为这里有个疑问是lnIV1+lnIV2=ln（IV1*IV2），如果lnIV1和lnIV2进入后R Squared Change显著的话是不是就代表已经存在交互影响了么？还需要继续进入lnIV1*lnIV2么？对这个问题我感觉有点钻到牛角尖里了，想了很久都不太清楚？

　　2。另外是关于前面0值太多的自变量（单峰非正态），有点类似于medical research里面的account variable，0代表没发生，但他们是自变量，而不是因变量，所以感觉不能用Logistic回归。我试着用了log之类的转换，很难变成正态分布，目前我将其转换成了dummy variable 0 和1做了一个model，然后再选择所有不为0的obsevation做了一个model，但这样做得结果不是很理想。请问是否有一些特殊转换处理这方面的数据呢？

　　问题一较简单：交互影响模型中的自变量是否可以取对数？答案是肯定的。因为在你的模型 Y = b0 + b1ln（IV1） + b2ln（IV2） + b3ln（IV1）ln（IV2）中的右边前两项，即IV1和IV2各有一个回归系数b1和b2，所以它们不会被约简为另一个b3ln（IV1）ln（IV2）。

　　同理，模型右边第三项 b3ln（IV1）ln（IV2）简约后成为 b3 （IV1 + IV2），也不等同于前两项 b1ln（IV1） + b2ln（IV2）。当然，第三项的变量（IV1 + IV2 中的联合分布比IV1和IV2原先的独立分布更加不对称，即更加偏离正态分布。但是，据我的理解，当你将 ln（IV1）ln（IV2）输入OLS回归时，计算程序是将 ln（IV1）ln（IV2）当做一个值处理而不会将它分析成IV1 + IV2的。

　　问题二很复杂：如何处理服从power-law（幂律）分布的数据？这种分布特征的数据，具有很多个最小值、而这些最小值由于受到某种机制的限制而无法再往更小的方向延伸（left-censored），而全部堆积在一起。也有人称其为 "floor effects” （“地板效应”）数据（如下图a）。初看，这些最小值（本例是1）堆起来不像是地板效应、而像 “ceiling effects”（“天花板”效应）。但如果将图a作90度旋转，就可以理解“地板”的意思。当然，这种分布的反面，即一组数据中有很多个无法更大的最大值（right-censored values），就是“天花板”了。

　　以上图a中的X，按三个不同的幂律值（1、2、4）而形成三种不同的“地板”分布（即P（X）=X-1、P（X）=X-2、和P（X）=X-4。具体说来，当幂律=-1时，X的最小值占了总体的19%；当幂律=-2时，X的最小值占了总体的61%；而当当幂律=-3时，X的最小值占了总体的92%！在经典的“正态分布世界”（the world of normal distribution）里，我们都是用log来转换服从幂律分布的数据。以下图b就是对图a中的三组X用log转换以后的分布形状：

　　与图a相比，图b中的三种分布的形状不那么“地板”了，但是还远远不是正态分布的。如果将X的频数（即P（X））也作log转换，即得到一个单调递减的线性分布

　　图c也不是正态分布。但在“正态世界”里，线性分布是我们对付幂律数据的（相对）最好方法了；就是说，幂律分布的数据永远不可能转换为正态的。真的没有其它方法了吗？有，那就要离开正态世界而进入“变态世界”（the world of abnormality）、做一个研究“变态行为”的“变态学者”。“变态”这个字太刺眼。做“变态研究”的绝大多数是拘谨的物理学家，当然无法承受世俗的歧视，所以将变态世界叫做“复杂系统”（complex system）。我一开始说“这个问题很复杂”，意思就是“这是一个复杂世界的问题”。当然，复杂系统也不能点石为金，将幂律分布数据变成正态分布数据、而是用整个一套完全不同的思想和方法来看变量的分布和变量之间的关系。（参见A. Clauset， C.R. Shalizi， and M.E.J. Newman， "Power-law distributions in empirical data" SIAM Review， 2009）。

可以试试以下几种方法：一、对X取log之后、再取log（当然，如果log（X）有非正值、需要先对其做线性转换成正值）；二、将X转换成0-1值的dummy variable后直接进入模型（而不是用来分拆成两个模型）；三、将X与其他相关的自变量合成新的变量；等等。注意，上述任何一种方法都不会产生正态分布、所以其结果都是差强人意的。