图论 二分图 小世界网络 语义网络

来源:互联网 发布:淘宝价格监控软件 编辑:程序博客网 时间:2024/04/29 04:19

  • 图论
  • 小世界网络
  • 二分图
    • 例子
  • 语义网络

图论

首先“连通图”很容易理解,比如这个世界每个人做一个节点的话,把相互认识的两人间连一条线,整张图多半可能就是一张连通图。

社交网络中,比如我不想让我github上的朋友你看到我的博客,就不加入外链,而在博客上加入git外链,即建立了单向边。

对于一个连通图G,就产生了两个概念:特征路径步长和聚合系数

  • 特征路径长度(characteristic path length):在网络中,任选两个节点,连通这两个节点的最少边数,定义为这两个节点的路径长度,网络中所有节点对的路径长度的平均值,定义为网络的特征路径长度。这是网络的全局特征。

  • 聚合系数/聚类系数/集聚系数(clustering coefficient):假设某个节点有k条边,则这k条边连接的节点(k个)之间最多可能存在的边的条数为k(k-1)/2,用实际存在的边数除以最多可能存在的边数得到的分数值,定义为这个节点的聚合系数。所有节点的聚合系数的均值定义为网络的聚合系数。聚合系数是网络的局部特征,反映了相邻两个人之间朋友圈子的重合度,即该节点的朋友之间也是朋友的程度。


小世界网络

  • 对于规则网络,任意两个点(个体)之间的特征路径长度长,但聚合系数高。
  • 对于随机网络,任意两个点之间的特征路径长度短,但聚合系数低。
  • 小世界网络,点之间特征路径长度小,接近随机网络,而聚合系数依旧相当高,接近规则网络。

发现规则网络具有很高的聚合系数,大世界(large world,意思是特征路径长度很大),其特征路径长度随着节点数 N 线性增长,而随机网络聚合系数很小,小世界(small world,意思是特征路径长度小),其特征路径长度随着log(N)增长中说明,在从规则网络向随机网络转换的过程中,实际上特征路径长度和聚合系数都会下降,到变成随机网络的时候,减少到最少。但这并不是说大的聚合系数一定伴随着大的路径长度,而小的路径长度伴随着小的聚合系数,小世界网络就具有大的聚合系数,而特征路径长度很小。试验表明,少量的short cut的建立能够迅速减少特征路径长度,而聚合系数变化却不大,因为某一个short cut的建立,不仅影响到所连接的节点的特征路径长度,而且影响到他们邻居的路径长度,而对整个网络的聚合系数影响不大。这样,少量的short cut短路径的建立就能使整个网络不知不觉地变成小世界网络。

实际的社会、生态、等网络都是小世界网络,在这样的系统里,信息传递速度快,并且少量改变几个连接,就可以剧烈地改变网络的性能,如对已存在的网络进行调整,如蜂窝电话网,改动很少几条线路,就可以显著提高性能。

人们发现在具有小世界特征的动力系统中,信息的传播能力、计算能力等都得到了增强。瓦茨认为;局部行为导致了全局性的结果,而局部动态特性和全局动态特性之间的关系,则主要依赖于网络的结构。在这篇论文中,作者利用人群中传染病的传播、博弈论中合作的演化、元胞自动机的计算能力、耦合相位振子的同步等具有小世界特征的动力系统进行了研究,并对小世界的前途进行了展望。

为什么很多现实网络具有“小世界特征”?

结合现有假说和自己的理解,可能是以下原因;

  1. 由于现实的需要,如交流、效率、成本等原因,真实网络中存在着“捷径”。

  2. “捷径”的数量与需求相匹配。

  3. “捷径”的生成和维护往往需较高的“代价”。

二分图

二分图:若一个无向图G中的结点可以分为两个集合X和Y,使得每条无向边(u,v)都满足u,v不在同一个集合中。

对于二分图,有很多关于最大匹配,最小覆盖点集,最大独立集,最小支配集的算法,这些算法的应用我之后会慢慢补充。
二分图大讲堂——彻底搞定最大匹配数(最小覆盖数)、最大独立数、最小路径覆盖、带权最优匹配

二分图最重要的过程是建模,就是把什么看作结点,什么看作集合X,什么看作集合Y。其实这不完全,我们完全可以把二分图的X,Y集合作为两个完全不同的事物集合来看待,例如桌子和椅子各放一个集合,而边呢,就是这两个集合间有什么联系,

这样一来二分图的应用一些广了许多。

例子:

  • eg 1.一个棋盘上某些格子是可以放棋子的,有些则是禁放的,还有些格子固定有分割标记,任意两枚棋子如果位于同一行或同一列且中间没有任何分割标记,则相互冲突。
    那么给定一个棋盘,最多能够放多少枚不相互冲突的棋子呢?

    如果我们把每个能放棋子的格子看作一个点,那么这个问题确实和二分图没什么关系了。但如果我们把每行看作一个点,放在X集合里,每列看作一个点,放在Y集合里,那么每个格子对应了一个点对(x,y),可以看作边。集合内部的点之间当然是不会连边的
    那么这个问题就变成了,在一个二分图里,怎么连最多的边,而使得每个点只能与一条边相连——二分图的最大匹配。

  • eg 2.有两台机器A和B及N个需要运行的任务。每台机器有M种不同的模式,而每个任务i都恰好在一台机器上运行。如果它在机器A上运行,则机器A需要设置为模式ai,如果它在机器B上运行,则机器B需要设置为模式bi。每台机器上的任务可以按照任意顺序执行,但是每台机器每转换一次模式需要重新启动一次。请合理为每个任务安排一台机器并合理安排顺序,使得机器重启次数尽量少。

    机器重启次数是两台机器需要使用的不同的模式个数。但是如果把每个任务看成一个X结点,把每台机器的每个模式看成一个Y结点,则此模型没有任何意义。应该把每个任务看成一条边,即A机器的每个模式看成一个X结点,B机器的每个模式看成一个Y结点,任务i为边(ai,bi)。本题即为求最少的点让每条边都至少和其中的一个点关联——二分图的最小覆盖点集。

语义网络

语义网到底有什么用。用非常不精确的语言讲:

动态的数据建模,不需要什么schema或者shema可以快速演进(这是和数据库和XML比的好处)让数据流动起来,而不是封固在一个个的网站或者应用里。支持更多的任务自动化。(怎么做到?一些数据可机器处理,一些推理,一些查询)

语义网界研究早期有很多现在已经被纠正的概念(比如语义网的目的就是让机器读网页)——早期,大多数人都低估了它的困难程度。按Nova Spivack的说法,传统意义上的语义网(ca 2000定义)大概要到2030年才能实现。到2020年左右,如果运气好的话可能能实现Data Web,也就是让Web的上数据能自由流动起来。推理啊,机器理解啊,不是这个阶段的核心任务。

从目的的角度,语义网是一套减少数据摩擦,加快数据流动速度的方法。

为什么要加快数据流动速度呢?信息就和货物一样,慢速的系统和快速的系统创造出来的价值是完全不一样的。快的系统在单位时间内可以让更多的人参与到决策和行动中来,就可以打败那些更慢的系统。网页10秒打开和1秒打开,问题1分钟内被回答和1天被回答,效果完全不同。火云邪神说,天下武功,唯快不破,就是这个道理。

那数据流动为什么会慢呢?有人机界面的摩擦,和机器-机器界面的摩擦。其中人机界面的摩擦是主要的。

语义网其实在做的一件事就是将整个WWW转换成一个大的数据库. 现在的WWW是以document为组织方式的,一个page一个page,使得更小的数据(DATA)碎片化了. 如果我们将信息降解到一个个data,那么我们就可以进行数据库的操作,比如设想两个网站,”当当”和”亚马逊”, 大家都售卖 “新华字典”, 本来 的信息组织方式是以页为基础的,那么当我们想要比较两个信息源内容的时候就需要人工或自动的挖掘data. 而如果是语义网基础下,因为data是构建WWW的基本元素,我们可以很容易的join这两个”数据库” 来得到 “新华字典” 这个 thing 的所有相关数据.

打个简单的比方,我想买优衣库的一件TEE,在第一阶段或者说是web1.0时代我只能连接到优衣库公司的电脑,在第二阶段时期,我可以连接到这件TEE的详细页面或文件,信息共享化的理念被普遍接受,在第三阶段里,我可以直接连接到这件TEE的信息,而不是优衣库的电脑或者其分类下TEE的页面。

WWW发明人Tim Berners Lee对物联网的四个阶段的总结
数字信息传播第一阶段:与电脑联机。我们也可以称之为互联网。
第二阶段:与文件和网页连接。
第三阶段:共享文档中的数据
第四阶段:连接事物本身,也就是物联网。

我们现在正处于第三阶段的收尾部分,即web2.0时代,所以理解前两个阶段的过程略有难度,因为我们已经习惯于直接搜索TEE的信息共享它的数据。

很多人持有三段论(到第三阶段截止),KK认为我们将进入第四阶段。其实很好理解,因为一开始我们想要连接的是这件TEE,理想情况下我们可以直接连接到TEE的原始信息里去,选择制造商是优衣库还是别的牌子,选择质地,图案等。这是我们真正想要的TEE,而我们想要的就是物联网。

引用:
语义网是什么?有什么好处

1 0
原创粉丝点击