图数据挖掘之基本概念

来源:互联网 发布:123d design mac 编辑:程序博客网 时间:2024/04/29 22:05

图数据挖掘——基本概念

          去年的这个时候我第一次听到图数据挖掘这个词,当时有点茫然,也产生了很多对它的错误理解,究竟什么是图,而什么又是图数据挖掘?这篇将给大家介绍。图,就是我们在数据结构中学到的图,它是一中存储信息的结构,在数据结构中它是被安排在后面的章节,所以很容易被我给忘记。图,在数据结构中的定义的基本意思是这样的:图中的每个节点都可以有多个父节点,多个子节点。所以图的结构是非常灵活的,它包含了链表的结构,包含了树的结果。它是整个数据结构的综合体。它的信息存储也是通过节点和边的形式进行存储。这就是图的概念,下面也给出了一个基本的图的结构图:

       

                                                                      

        如上图就是一个图,该图是一个无向带权重的图,在我们现实生活中这样的图是存在的,例如我们全国的交通网络图,就是一个无向图,因为你可以到一个地方去肯定也可以沿着这条路返回,无向是两个节点不管是哪到哪沿着这条路径都可到达,例如:上图的V1---->V6可达,同时V6------>V1也可达,这样就称之为无向边。当然也存在有向边。这里就不对图的概念再进行详解了,想了解可以看数据结构,书上讲的比我清楚。

         那么上面介绍了图的概念,那么什么事图数据挖掘,这个概念比较广,它是属于数据挖掘中的一种,我们知道数据挖掘有web数据挖掘(就是我们的百度/google等)、还有图像数据挖掘、还有基于场地的图像数据挖掘。我这里就不一一列出,百度一下都知道了。那么图数据挖掘是什么呢?我这里只是依照我现在做的工作来给它一个定义,可能不是很正确(望请大家见谅)。本人现在做的就是在一个图的关键词搜索,我们知道百度/谷歌是IR,他是信息检索,他是对文本信息进行检索,也就是我们的html页面。那么图的关键词搜索和IR有什么不同呢?我们知道IR是搜索包含我们关键词的文本内容全部返回给用户,但是返回的内容是否存在关系那就不好说,所以此时就出现了图的关键词搜索。图的关键词搜索就是返回给用户你输入的关键词相互之间的关系,例如:你输入张三、李四这两个人名关键词,那么图的关键词搜索机制将会返回包含在图中包含这两个关键词的节点这件的一个关系,一般是采取树的方式展现出来。那么究竟是什么关系呢?例如:张三是李四的同学,张三是李四的哥哥、张三和李四是老乡。那么这里的同学、哥哥、老乡就是这个两个关键词之间的关系。想想在IR中能做到这些吗?因为IR搜索注重的不是关系,它注重的是信息,他是将包含关键词的信息返回给用户,而不考虑关键词之间的关系。

         那么在图数据挖掘中找这种关系是如何实现的呢?例如上图:假设要查找张三、李四这两个关键词,刚好在上图中有V1包含关键词张三,V2包含关键词李四,在普通的IR系统中是就将同时包含张三、李四的节点返回给用户(注意:此处的节点就是一个信息点,里面有内容而V1V2....只是一个代号)。那图的关键词搜索返回关系,到底是返回什么关系呢?上图,我们知道从V1到V2有多条路径,如:V1--->V5--->V2V1----->V3------>V2等等,此处就不一一列举出。那么我上面举出的两条路径,不就是一个棵树吗?一个是以V5为根节点,一个是以V3为根节点。那么节点V5V3就是这两个关键词之间的一个关系,这就是我上面说的如何找出两个关键词之间的关系。这里就将如何找到两个关键词之间的关系总结一句话:找到包含关键词的节点公共父节点。那么这时候就面临这两个关键词的公共父节点肯定不只一个,那么我们该返回哪个?这就要看到我们图中边的权重了,这里就要用到了对图遍历的一些算法(Dijkstra),此处就不对搜索的详细过程进行过多的描述,后期我会发到此博客上。此处肯定的是将结果排序,按照到达公共父节点的路径消耗和节点的权重来排序。

         总结一下,图数据挖掘,个人认为(可能不是很正确,仅供参考),就是在图中进行挖掘出我们想要的信息,例如上面说的节点之间的关系,而图的关键词搜索只是其中一个方面,它只是对图进行搜索,同时以树的形式进行返回,同时也以树的形式展现给用户。

         此篇是有关图数据挖掘的有关概念上的介绍,以下篇我将讲解,在现实生活中如何将信息存储为图,后期我将会介绍图的关键词搜索,一些当前比较流行的图搜索系统(本人也已做出了一个类似的系统),并介绍他们的算法实现。欢迎继续关注本博客。如有写的不到位之处欢迎指出,本人将万分感激,由于本人也是初次接触图方面的研究,也没有太多理论上的理解,只是通过自己在实现方面获得的一些感想,并把这些感想分享给大家。

       谢谢浏览!


原创粉丝点击