LINE：Large-Information Network Embedding

来源：互联网发布：数据挖掘的预测算法编辑：程序博客网时间：2024/06/05 03:28

LINE︰ Large-Information NetworkEmbedding

Jian Tang¹,Meng Qu², MingzheWang^∗, Ming Zhang², Jun Yan¹,Qiaozhu Mei³

¹MicrosoftResearch Asia, {jiatang,junyan}@microsoft.com

²School ofEECS, Peking University, {mnqu, wangmingzhe, mzhang_cs}@pku.edu.cn

³School ofInformation, University of Michigan, qmei@umich.edu

摘要

本文研究的是如何将一个大规模信息网络嵌入到一个低维向量空间之中的算法，这个算法在可视化，节点分类，和链接预测等等许多领域都十分有效。目前存在的大部分图嵌入算法都不适合处理现实世界中通常包含百万个节点的信息网络。所以在本文中，我们提出了一个新的名为“LINE”的网络嵌入方法。这种方法适用于处理任意类型的信息网络，不论是有向的，无向的，是否有权重的。这种方法采用了一个优化过的目标函数，用于同时保留全局和局部的网络结构。

并提出了一种边采样的算法，解决了经典随机梯度下降的局限性，提高了推理的有效性和效率。实验证明LINE算法对于各种现实世界中的信息网络的有效性，包括语言网络，社会网络和引用网络。该算法十分有效，能够在单机上在几个小时之内学习出一个有百万个顶点和上十亿条边的网络的嵌入向量

类别和主题描述符

I.2.6 [人工智能]: 学习

概述

算法，实验

关键字

信息网络嵌入; 可扩展性; 特征学习; 降维

一、介绍

信息网络在现实世界中普遍存在，例如航空公司网络，出版物网络，通信网络和万维网。这些信息网络的规模从几百个节点到数百万和数十亿个节点不等。大规模信息网络的分析在学术界和工业界引起越来越多的关注。本文研究的是将信息网络嵌入到低维空间的问题，其中每个顶点都表示为一个低维向量。这种低维嵌入在各种应用中非常有用，如可视化，节点分类，链路预测和选择推荐。

眼前已经在机器学习文献中提出的各种图形嵌入方法多半在问题规模比较小的时候表现良好。但是当他们面临一个真实世界的信息网络，通常包含数百万的的节点和数十亿边，那么对他们进行降维将会变得很困难

例如，2012年，Twitter followee-follower网络包含了一千七百五十万活跃用户和大约300亿条边。当前大部分图嵌入算法并不能处理这个规模的网络。又例如，MDS，IsoMap，Laplacianeigenmap等经典图形嵌入算法的时间复杂度至少是顶点数的平方，对于有百万个节点的网络来说，这样的时间复杂度太过昂贵。’

在本文中，我们提出了一种称为“LINE”的网络嵌入模型，它能够适用于非常大的任意类型的网络：无向，有向和/或加权。该模型优化了保留本地和全局网络结构的目标。

自然地，局部结构由网络中观察到的链路表示，其捕获顶点之间的一阶相似性。大多数现有的图形嵌入算法被设计于保持一阶相似性，例如IsoMap和Laplacia eigenmap，尽管他们并不能用于处理大规模的网络。我们观察到，在现实世界中，许多合法链接实际上没有被观察到。

换句话说, 在实际数据中观察到的一阶相似性并不足以保持数据的全局结构。作为补充，我们探讨了顶点间的二阶相似性，二阶相似性是由顶点间的共享邻居决定的而不是有顶点间的直接联系决定的。我们也可以在社会学和语言学的理论中找到这种联系。例如，两个人关系的亲密程度可以再很大程度上取决于他们关系网的重复程度。事实上，拥有大量共同的朋友的两人有可能拥有相同的兴趣，并成为朋友，类似的，使用的语境非常相似的两个单词也很有可能是同义词。

图 1 展示了一个例子。顶点 6 和 7 之间的边的权重大，即6 和 7 有高一阶相似性，所以他们在被嵌入的低维空间中应该接近。另一方面，虽然顶点 5 和 6 之间没有联系，但他们有着许多共同的邻居，即他们有高二阶相似性，因此，在嵌入的空间中也应该接近。我们期望考虑了二阶相似性后能够有效补充一阶相似性的稀疏性,并且能够更好地保护网络的全局结构。在本文中，我们提出了经过精心设计的保留一阶与二阶相似性的目标。

但是即使找到了正确的目标，想要优化一个非常大的网络是具有挑战性的。近几年一种使用随机梯度下降优化的方法引起了我们的关注。然而，我们的实验结果表明，直接使用随机梯度下降来处理实际信息网络是有问题的。这是因为在很多网络中，边缘加权和权重通常呈现高的方差。在词同现网络中，词对的权重的范围可以从一到数十万。这些边的权重会在梯度下降过程说累乘，产生爆炸式增长，因此损害性能。为解决这个问题，我们建议新的边缘采样方法，提高了推理的效率与有效性。我们的采样方法使用与边权成正比的概率来进行采样，然后将采样的边看作是二进制边缘模型来更新。采样过程中，目标函数保持不变，边的权中也不再影响梯度。

LINE有普适性，非常适合向或无向，带权或非带权图。我们评估LINE对于各种实际信息网络的嵌入效果，包括语言网络、社会网络和引文网络线。我们用到了多种数据挖掘的而方法来对这个嵌入模型进行评估，这些方法包括词类比、文本分类和节点分类。结果表明，LINE模型不管是有效性还是效率都优于其他模型。它能够在单机上仅仅用几个小时就完成对一个拥有百万节点和数十亿边的网络的降维

综上所述，我们得出以下结论︰

• 提出了一种名为LINE的新型的网络嵌入模型，适合任意类型的信息网络，可以轻松处理数百万节点的网络。它有一个精心设计的目标函数，保留了对一阶相似性和二阶相似性的敏感度。

• 提出了边缘采样算法来优化目标。该算法解决了经典的随机梯度下降算法的局限性，提高了推理的有效性和效率。

• 我们对真实世界的信息网络进行了广泛的实验，实验结果证明了LINE模型的效力和效率。

文章结构： 本文的其余部分结构如下。第2部分总结了相关的工作。第3部分正式定义大型信息网络嵌入的问题。第4部分介绍了LINE模型的详细信息。第5部分给出了实验结果。

二、相关的工作

我们的工作在大体上与经典的图嵌入或降维方法有关，如multi-dimensional scaling(MDS)[4], IsoMap, LLE和Laplacian Eigenmap等。这些方法通常首先用数据点的向量构造亲和图，如K-近邻图的数据，然后将亲和图嵌入到低维空间。然而，这些算法通常依赖于解决亲和性矩阵，但是这样做的复杂度是至少节点数的平方，在处理大规模网络时效率低下。

最新文献中提出了被称为图分解的技术。它通过矩阵分解来对大型图进行降维，并且使用随机梯度下降法优化。能够这样做是因为一个图可以表示为亲和矩阵。然而，矩阵分解法并不是为了网络而设计的，因此不一定能保留全局网络的结构。直观地说，图分解法嵌入的点中，具有较高一阶相似性的点距离更近。而LINE模型是专程为网络设计的算法，从而保存了对一阶相似性和二阶相似性的敏感度。实际上，图分解法只适用于无向图，而LINE模型适用于无向图和有向图。

与我们相关的最新研究是DeepWalk，部署社会网络嵌入截断的随机游走。虽然实证有效，但是DeepWalk 没有提供一个明确的目标，没有阐明哪些网络属性将被保留。直观地说，DeepWalk嵌入的向量在二阶相似性高的情况下更临近，而LINE模型保留一阶相似性和二阶相似性的洞察力。DeepWalk 使用随机游动展开的顶点，类似于深度优先搜索。我们使用breadthfirst 搜索策略，是二阶接近一个更合理的方法。实际上，DeepWalk 仅适用于未加权网络，而我们的模型是适用于网络的加权和不加权的边缘。

在第5部分，我们进行了实证比较模型与这些方法采用各种真实的网络世界。

三、问题定义

我们正式定义了使用一阶相似性和二阶相似性的大规模信息网络嵌入问题。我们首先定义一个信息网络，如下所示：

定义1.（信息网络）信息网络定义为G =（V，E），其中V是顶点集合，顶点表示数据对象，E是顶点之间的边缘的集合，每条边表示两个数据对象之间的关系。每条边e∈E表示为有序对e =（u，v），并且与权重wuv> 0相关联，权重表示关系的强度。如果G是无向的，我们有（u，v）≡（v，u）和wuv ≡ wvu;如果G是指向的，我们有（u，v）≠（v，u）和wuv 6≠ wvu。

在实践中，信息网络可以是定向（例如，引用网络）或无向的（例如，Facebook中的用户的社交网络）。边的权重可以是二进制的，也可以是任何实际的值。注意，尽管边缘权重为负是可能的，但在本研究中，我们只考虑非负权重。例如，在引用网络和社交网络中，wuv具有二进制值; 在不同对象之间的同现网络中，wuv可以采取任何非负值。一些网络中的边缘的权重可能会随着某些对象共同出现而发散，而其他对象可能会共同出现几次。

将信息网络嵌入到低维空间中在各种应用中是有用的。要进行嵌入，必须保留网络结构。我们的第一反应是必须保留本地网络结构，即顶点之间的直接连接。我们将本地网络结构定义为顶点之间的一阶相似性。

定义2.（一阶相似性）网络中的一阶相似性是两个顶点之间的局部点对的邻近度。对于由边缘（u，v）链接的每对顶点，该边缘的权重wuv表示u和v之间的一阶相似性，如果在u和v之间没有观察到边缘，它们的一阶相似性为0。

一阶相似通常意味着现实世界网络中两个节点的相似性。例如，在社交网络中成为朋友的人往往具有类似的兴趣; 在万维网上互相链接的页面往往谈论类似的主题。由于一阶相似性的重要性，许多现有的图形嵌入算法，如IsoMap，LLE，拉普拉斯特征图和图表因子分解的目的都是保持一阶相似性。

然而，在现实世界的信息网络中，观察到的链接只是一小部分，许多其他关系都没有被观察到。缺失链路上的一对节点，即使它们在本质上非常相似，然而他们的一阶相似性为0。因此，唯一的一次接近对维护网络结构来说不是很有效，而寻求解决稀疏问题的邻近方法的替代概念很重要。我们自然而然的想到，共享类似邻居的顶点往往是相似的。例如，在社交网络中，分享类似朋友的人往往具有相似的兴趣，从而成为朋友;在单词同现网络中，总是与同一组词汇共同出现的词往往具有相似的含义。因此，我们定义二阶相似性，这补充了一阶相似性并保留了网络结构。

定义3. （二阶接近度）的二阶一对顶点之间的接近程度（u，v）在网络中是其邻域网络结构之间的相似性。数学上，让 pu =(wu，1，...，wu，|V |)表示一阶附近 u 与所有其他的顶点，那么u和v之间的二阶相似性由pu 和 pv之间的相似性来决定。如果没有一个顶点同时和 u 与v链接，那么 u 和 v的二阶相似性是 0.

我们调查网络嵌入的一阶和二阶相似性，其定义如下。

定义4.（大规模信息网络嵌入）给定大网络G =（V，E），大规模信息网络嵌入的问题是将每个顶点v∈V表示为低维空间Rd中的向量，学习函数fG：V→Rd，其中d«| V| .在空间Rd中，顶点之间的一阶相似性和二阶相似性都被保留。

接下来，我们引入一个大型网络嵌入模型，保留一阶相似性和二阶相似性。

四、LINE︰大型信息网络嵌入

现实世界信息网络的理想嵌入模型必须满足以下几个要求：第一，它必须能够保持顶点之间的一阶相似性和二阶相似性; 第二，它必须扩展到非常大的网络，例如有数百万个顶点和数十亿个边; 第三，它可以处理具有任意类型边缘的网络：有向，无向和是否加权。在本节中，我们提出了一种称为“LINE”的新型网络嵌入模型，满足了所有这三个要求。

4.1 模型描述

我们描述了LINE模型，以分别保持一阶相似性和二阶相似性，然后介绍一种简单的方法来组合两种相似性。

4.1.1 LINE模型的一阶相似性

一阶相似性是指网络中顶点之间的局部成对邻近度。为了对一阶相似性进行建模，对于每个无向边（i，j），我们定义了顶点v_i和v_j之间的联合概率如下：

其中∈R^d是顶点v_i的低维向量表示。方程式（1）在空间V×V中定义了一个分布p（·，·），其经验概率可以定义为，其中。为了保持一级接近度，一个直接的方法是最小化以下目标函数：

其中d（·，·）是两种分布之间的距离。我们选择尽量减少两个概率分布的KL 散度。将d（·，·）替换为 KL 散度并省略一些常数，我们得到︰

请注意，一阶接近度仅适用于无向图，而不适用于有向图。通过确定使目标方程（3）最小的，我们可以表示出d维空间中的每个顶点

4.1.2 LINE模型的二阶相似性

二阶接近度适用于有向图和无向图。给定一个网络，不失一般性的，我们假设它是有向图（无向边可以被认为是具有相反方向和相等权重的两个有向边）。二阶相似性假定与其他顶点共享邻居顶点的两个点彼此相似。在这种情况下，每个顶点也被视为特定的“上下文”，并且假定 “上下文”分布相似的顶点是相似的。因此，每个顶点扮演两个角色：顶点本身和其他顶点的特定“上下文”。我们引入两个向量和，其中是该顶点被视为顶点时的的表示，该顶点被视为其他顶点的“上下文”时的表示。对于每个有向边（i，j），我们首先定义由生成“上下文”的概率：

其中| V | 是顶点或“上下文”的数量。对于每个顶点v，方程（4）实际上在上下文中定义条件分布p2（·vi），即网络中的整个顶点集合。如上所述，二阶相似性假定在上下文中具有相似分布的顶点彼此相似。为了保持二阶相似性，我们应该使降维之后的的上下文p2（·| vi）的条件分布接近经验分布。因此，我们最小化以下目标函数：

其中d（·，·）是两个分布之间的距离。由于网络顶点的重要性可能是不同的，我们在目标函数中引入λ_i来表示网络中顶点i的声望，可以通过度(degree)来度量，或者通过PageRank [15]等算法估计。经验分布定义为，其中w_ij是边（i，j）的权重，d_i是顶点i的出度，，其中N（i）是v的出度邻域的集合。在本文中，为了简单起见，我们将λ_i设为顶点i的度数，即λ_i=d_i，这里我们也采用KL散度作为距离函数，用KL-散度替换d（·，·），设置λ_i=d_i，省略一些常数之后，我们
有：

4.1.3 综合一阶相似性和二阶相似性

为了在嵌入网络时保持一阶和二阶相似性，我们在实践中发现的简单而有效的方法是分别维护一阶相似性和二阶相似性的LINE模型，然后再综合两种方法训练出来的结果。结合两者相似性的具体方法是同时训练目标方程（3）和（6），我们把这项工作留到以后再做

4.2 模型优化

优化目标（6）在计算代价昂贵，当计算条件概率为p2（·| vi）时，时间复杂度等于整个顶点集合的总和。为了解决这个问题，我们采用[13]中提出的负抽样方法，根据每个边缘（i，j）的一些噪声分布来采样多个负边缘。更具体地说，它为每个边（i，j）指定了以下目标函数：

其中σ（x）= 1 /（1 + exp（-x））是Sigmoid函数。第一部分为直接可见的链接的边建模，第二部分为从噪声分布绘制的负边缘建模，K是负边缘的数量。我们设置[13]中提出的P_n（v）∝d_v^3/4，其中d_v是顶点v的出度。

对于目标函数（3），存在一个平凡解：u_ik =∞，对于i = 1…| V | 和k = 1…d。为了避免这个平凡解，我们仍然可以通过将改为来采用负采样函数（7）。

我们采用异步随机梯度下降算法（ASGD）[17]来优化方程（7）。每一步中，ASGD算法对小批量边缘进行抽样，然后更新模型参数。如果边缘（i，j）被采样，则梯度w.r.t. 顶点i的嵌入矢量将被计算为：

注意，方程（8）中梯度将乘以边缘的重量w_ij。当边缘的权重有很大差异时，这将带来问题。例如，在单词同现网络中，一些单词共同发生多次（例如数万），而一些单词仅共同出现几次。在这样的网络中，梯度的尺度分歧，很难找到良好的学习率。如果我们根据小权重的边缘选择较大的学习率，那么大权重的边上的梯度就会爆炸式的过大，如果我们根据具有较大权重的边选择学习小的速率，那么小权重上的边的梯度将变得太小。

4.2.1 通过边缘采样优化

解决上述问题的直觉是，如果所有边缘的权重相等（例如，具有二进制边缘的网络），就不会存在选择适当的学习速率的问题。因此，简单的处理是将加权边缘展开成多个二进制边缘，例如，具有加权w的边缘展开成w个二进制边缘。这个拌饭能够解决问题，但会显著增加内存需求，特别是当边缘的权重非常大时。为了解决这个问题，可以从原始边缘进行采样并将采样的边缘视为二进制边缘，其中采样概率与原始边缘权重成比例。通过这种边缘采样处理，整体目标函数保持不变。该问题归结为如何根据其重量对边缘进行采样。

令W = (w1、 w2，...，w|E|)表示边的权重序列。首先可以简单地计算所有边权的和，然后对[0，w_sum]范围内的随机值进行采样，以查看随机值属落在[，]中的哪个区间。该方法采用O（| E |）时间采样，当边数| E |时，这样的时间复杂度很大。于是我们使用别名表方法[9]根据边的权重绘制一个样本，当从相同的离散分布重复采样时，它只需要O（1）的时间复杂度

从别名表中抽取边缘需要常数时间O（1），采用负采样的优化采用花费O（d（K + 1））的时间，其中K是负样本数。因此，整个步骤需要O（dK）时间。实际上，我们发现用于优化的步骤数通常与边数O（| E |）成正比。因此，LINE的整体时间复杂度为O（dK | E |），这与边数| E|成线性关系，不取决于顶点数| V |。边缘采样处理提高了随机梯度下降的有效性，而不会影响效率。

4.3 讨论

我们讨论了LINE模型的几个实际问题。

一个实际的问题是如何准确地嵌入出度特别小的顶点。由于这样的节点的邻居数量非常少，所以很难准确地推断出它的表示，特别是基于二次近邻的方法，这些方法很大程度上依赖于“上下文”的数量。

直观的解决方案是通过添加更高阶邻居（例如邻居的邻居）来扩展这些顶点的邻居。在本文中，我们只考虑添加二阶邻居，即邻居的邻居。顶点i与其二阶相邻j之间的权重被测量为：

实际上，我们只能添加具有最小出度w_ij的顶点i的子集{j}。

添加新顶点。另一个实际问题是如何找到新到达的顶点的嵌入表示。对于新的顶点i，如果其与现有顶点的连接是已知的，则可以通过现有顶点获得经验分布和。为了获得新顶点的嵌入，根据目标函数Eqn（3）或方程式（6），直接的方法是最小化以下目标函数之一

通过更新嵌入的新顶点并保持现有顶点的嵌入。如果没有观察到新顶点和现有顶点之间的连接，我们必须诉诸其他信息，例如顶点的文本信息，并将其作为我们未来的工作。

0 0