复杂网络中重要节点挖掘方法综述

复杂网络的一些相关概念可以参考我上一篇博客:复杂网络入门

  • 重要节点挖掘的任务
    • 1、找到一种适合于所有情形下量化节点重要性的方法是不可能的,甚至在给定明确的量化函数下,不同的参数或者不同的网络结构都可能导致函数执行效果完全不同。
    • 2、需要在节点局部信息和无参数指标与结合全局拓扑结构信息和众多可调参数中权衡,前者简单但是精度不够,后者相反。
    • 3、当前众多算法都是挖掘单个重要的节点而不是一个节点集,然后重要的节点集并不是简单地将众多最重要的单个节点放到一起组成的,因为他们可能有众多重复的部分。所以挖掘节点集是一个新的挑战。
    • 4、最后,我们需要在许多新型的网络下去挖掘重要节点,如:空间网络,时序网络等。

复杂网络中的节点各种的重要性是不一样的,如在微博这一社交平台中,一些微博红人和一些明星大咖的影响力和一个微博新手的重要性是不一样的;在大学校园里,校学生会主席和一个学计算机的死宅在大学这个社交网络中的重要性也是不一样的;在全国铁路网中,北京市,武汉市与拉萨市,乌鲁木齐市的重要性也是不一样的。
这篇文章主要介绍复杂网络中重要节点的发掘的一些基本方法:

  • 社会网络分析方法
    核心思想:是“重要性等价于显著性”,对网络中重要节点的发掘不以破坏网络的整体性为基础。
    这里的重要性主要是通过对网络中节点的度、节点和边上的权值等基本属性计算出一些发现节点重要性的基本指标,如接近度、介数、特征向量等。已提出的发现重要节点的指标主要分为核心性(Centrality)和声望(Prestig e)两大类。下面介绍其中几种常见的方法。

    • 节点的度
      节点的度的概念和计算方法在上一篇博客复杂网络入门中已经介绍了,这里就不再累述。这里主要说一下节点的度是怎样判断一个节点的重要性的:
      将网络中的节点按其度的大小排序,度大的节点往往更加重要。其思想是社会网络中人们的从众心理,比如大家都去关注一个明星的微博,将这个明星看成一个节点,他的度就相当的大,因此可以说这个明星相对比较重要。但是度大的节点不一定十分重要,同样拿明星微博说事,比如某个明星微博的粉丝很多,看似他很火,但是其实他的粉丝数大多数是一些水军创建的无用的“僵尸账号”,这样也不能体现出他的重要性。
      总而言之:一个节点的度值虽然很高, 但是连接它的其他节点并不重要, 则这个节点并不一定非常重要;反之, 若一个节点的度值并不是非常高, 但是连接它的节点多数都非常重要, 则这个节点在网络中可能是个非常重要的节点。

    • 接近度(Closeness)
      反应节点在网络中居于中心的程度。
      举例说明什么是接近度:
      这里写图片描述
      图中对于P2来说,可以直接到达P1、P3、P4,通过P4也能达到P5;但是对于P1来说除了P2可以直接到达以外,其他节点都需要通过P2才可以达到。我们就可以认为P2更趋近于网络的中心。
      在网络中最中心的节点上产生的消息,将以最短的时间传播遍整个网络。 网络中较短的距离意味着更少的消息传递时间和花费。
      接近度表示某节点到到其他所有节点距离之和的倒数。
      节点的接近度越大, 表明节点越居于网络的中心, 它在网络中就越重要。 但是, 接近度对网络的拓扑结构依赖性很大,对于集中式的星形网络它可以准确地发现中心节点, 但是对于民主式的正则图、ER 随机图网络则并不适合。

    • 介数
      A节点的介数含义为网络中所有的最短路径之中经过节点A的数量。
      对网络中每个节点的介数进行计算、排序, 也可以表达节点的某种重要性。 节点的介数值越高, 这个节点就越有影响力, 这个节点也就越重要。 使用介数来判断人际关系网络中节点的重要程度, 则其表示某个人在关系网络中最短路径上出现的次数, 这种次数越大, 则其影响范围越大, 其他人的交流渠道与此人也就越密切, 因此节点也就越重要。
      使用介数可以准确找到网络中某些“流量”非常大的重要节点, 但其缺点是介数的计算复杂度非常高。

    • 特征向量
      是从网络中成员的地位或名望角度考虑, 将单个成员的名望看成是所有其他成员名望的线性组合, 从而得到一个线性方程组, 该方程组的最大特征值所对应的特征向量就是各个节点的重要性指标。
      (没太明白T_ T|||)

  • 系统科学分析方法
    核心思想:是“破坏性等价于重要性”,利用网络的连通性来反映系统某种功能的完整性,通过度量节点删除对网络连通的破坏程度来反映网络节点(集)的重要性。
    系统科学分析方法主要研究的是系统的“核”与“核度”。


    • “核”定义为那些对系统功能来讲具有重要的或支配性作用的且一旦遭到破坏会使整个系统瘫痪或造成重大损失的节点或者节点的集合。
    • 核度
      用点割集和连通分支的数量来定义。
      通过核和核度来研究节点(集)重要性的思路, 源于图论中点割集的概念 , 即是通过度量节点(集)被删除后对网络连通的破坏程度来定义其重要性的。对网络连通的破坏程度越大, 被删除的节点(集)越重要, 因为网络连通的维持依赖于它们的存在。
      但是存在一个问题就是对于不同的点割集,无法判断点割集之间谁更重要, 因为每一个点割集的删除都会使图不再连通,同样,点割集中的节点也不能比较谁更重要。
      延伸:也可以通过计算删除某两个节点间最短路径上的节点后,这两个节点之间距离的增加值来衡量;也可以删除图中的节点后,看其生成树的数量的变化,数量越少表明节点越重要。
  • 信息搜索领域分析方法
    核心思想:将图看做互联网。即节点代表网页,边代表网页之间的超链接。其中著名的算法有PageRank和HITS算法。这里简单介绍一下PageRank算法思想:
    当网页 A 有一个链接指向网页 B 时, 就认为网页 B 获得了一定的分数, 该分值的多少取决于网页 A 的重要程度, 即网页 A 的重要性越大, 网页B 获得的分数就越高。 由于 Web 上链接相互指向的复杂程度, 该分值的计算过程是一个迭代过程, 最终网页将依照所得的分数进行排序并将检索结果送交用户。

  • 网络中节点的相对重要性
    核心思想:以某些节点(集)为根节点,计算其他节点对于根节点的重要性。前面介绍的所有方法都是从全局的角度出发,来对节点的重要性进行排序,而没有研究节点(集)之间相对重要性。
    White 和 Smyth 通过对四种渐近性的问题描述, 定义了一个通用的基础架构, 来发掘网络中节点的相对重要性:
    这里写图片描述

这篇文章从不同的学科角度来总结了一些重点节点发掘方法的综述,对于具体方法和算法的实现、结果的分析,以后会慢慢学习。


参考文献:
赫南,李德毅,淦文燕,朱熙. 复杂网络中重要性节点发掘综述. 计算机科学. 2007年12期:1-6
Linyuan Lu,Duanbing Chen et al. Vital nodes identification in complex networks. Pyhsics Reports【J】. 10.1016/j.physrep.2016.06.007


注:转载请注明原文出处:
作者:CUG_UESTC
出处:http://blog.csdn.net/qq_31192383/article/details/53079312

阅读更多

更多精彩内容