Mining FrequentNeighborhood Patterns in Large Labeled Graphs - 笔记

来源:互联网 发布:java amr转mp3 编辑:程序博客网 时间:2024/05/22 13:19

Mining FrequentNeighborhood Patterns in Large Labeled Graphs : 在大型标签图中挖掘频繁邻域模式

 

Abstract:本篇论文的目标是在单一图中设置挖掘模式,解决通过转变从邻接子图到邻接节点挖掘目标的“DCP-intuitiveness”困境。一个邻接节点图是一个特殊的拓扑模式。

DCP-向下封闭性

Neignborhood: 一种特殊的拓扑模式。节点是嵌入的,这种模式很频繁。被一大部分节点共享。

Keywords:Graph Mining (图挖掘)

 

1.在引言中主要介绍了两种算法:Frequent Subgraph Mining (FSM)和 FrequentNeighborhood Mining (FNM)

1.1Association Rule Mining(关联规则挖掘):是帮助发现大量数据库项集之间的关联关系,随着大量数据的增加和存储,人们对于从数据库中挖掘这些规则越来越感兴趣。

 

 

2.ProblemFormulation:公式化表述问题

   在本部分中,首先,引入基本符号描述标记图和一个邻接节点模式。然后我们制定的决策问题检查是否一个社区模式匹配一个给定的顶点在一个大型图表旋转子图同构问题。我们证明,顾名思义,这是np完全问题,使我们的问题与FSM一样困难。然后定义一个社区的支持模式,当数据库中点的数量可以匹配的时候,简要证明其向下关闭性能。最后,将提供更多的空间讨论关于公式化表述问题的表达。

2.1 标记图


V   节点

LV   所有的节点标签

E   所有的边

后面两个分别是节点的标签名 和 边的标签名

一个节点可以拥有很多标签。边至少拥有一个标签。

element表示 节点标签和标记的边的一个结合,

(|LV|+|E|)表示element的数量,也是表示标签图的大小。

 

2.2 旋转子图同构

同构:存在一个从G1到G2的映射函数f,使得如果 V1V2属于E1 则f(v1)f(v2)属于E2

性质1:同构的关系是传递的。

2.3 Support: the measure of frequency.频繁度量

性质2:support是向下封闭的。

 

3.挖掘算法:主要介绍了挖掘邻接节点模式算法,它遵循关联规则的广度优先搜索算法,揭示了搜索子图和邻接节点模式之间的主要技术差异。除此之外,关于FNM和FSM的解决方案和优化方法之间的相似性也进行了讨论。

 

3.1Building Blocks(基石):传统的FSM算法以规模的方式生成子图模式。

首先,所有大小为1的频繁子图作为 基石 被预先计算。

大小为K的候选从k-1生成

如果有接下来的语句,邻域模式可以看作是路径模式

当且仅当社区模式是一个路径模式是,他是不可分解。此时,他最多只有一个节点标签,否则会被分解。同时,他不会含有循环。

 

3.2ConstructingBuilding Blocks(构建基石)

3.4 使用节点标识列表  VID-list来优化算法

4.第四部分介绍了相关实验中用到的数据集,以及对于邻接节点挖掘算法的性能。

5.相关工作:

5.1 频繁子图挖掘

5.2 图中频繁树查询挖掘

5.3 归纳逻辑编程系统的相关工作

 

6 Future work:

  1. Closed neighborhood patterns:封闭社区模式
  2. 枢轴可以成为一条边,并且允许表述成一条边的领域
  3. 深度优先算法在FSM算法中表现的更好,可以用到FNM中。

 

7.总结:在本文中,主要解决对于单个图的数据库的挖掘并介绍了新的邻接节点模式作为挖掘目标。它们有明确的语义并且不限制树的形状。正式定义邻接节点挖掘问题,证明了它和邻接子图挖掘的问题一样困难。表明FNMFSM两种算法之间就方法而言主要的区别是我们的模式有重要的构建块,它被我们通过一个定理和证明被清晰的分开。讨论可能的优化后,我们进行了两个真实数据集的实验来验证我们的方法的效率和有效性。该算法被证明是可行的,为用户提供和展示了一个独特的能力,尤其是有趣的见解分析数据。

0 0