内容纲要

图卷积网络已经被广泛应用到特征表达, 但是,对于图神经网络真实能够从图数据中获取增益仍然缺少理解。本文介绍一个上下文环绕的GNN框架提出两个平哈的度量来确保从图数据中获得的信息的数量和质量。作者称为CS-GNN,基于图的平滑值来提升图信息的使用。

Introduction

为什么GNN要比基于欧氏距离的方法表现好,作者认为是因为利用到了更加丰富的信息,从捕捉到的目标的邻居中。GNNs收集邻居信息然后聚合,比如平均值聚合,比如求和聚合,还比如attention聚合。然后这些聚合的向量和节点自己的特征向量结合形成一个新的特征向量。通过几次迭代后,节点的特征向量可以用来做任务比如分类。因此,图数据带来的性能提升和邻居信息的数量和质量高度相关。基于此,作者提出两种平滑度量在节点特征和标签来测量节点邻居节点的数量和质量。这个度量随后被用于分析已经存在的GNNs模型中。
在实际中,不是所有的邻居节点都包含相关的信息,因此,给定一个任务,邻居提供可能是正的信息或负的干扰。使用人工挑选的聚合器来简单的聚合特征向量,通常不同达到满意的结果。为了解决这个问题,我么提出一种新的模型CS-GNN,使用平滑度量来选择性的聚合邻居信息,放大有用信息减少负面干扰。

度量信息是否有用

本文首先引入3个常见的GNN模型,展示一下如何聚合邻居节点的信息。然后提出两种平滑的度量。

GNN

首先约定了一堆公式和字符的表达,如图所示。
file
介绍了四种GNN,其中一个是痛殴也能够的GNN框架,另外三个是具有代表性的框架。如图所示:
file

  1. general GNN
    假设有K次迭代,在每次迭代,只有1-hop的邻居被聚合,然后框架包含两个函数,AGGREGATE和COMBINE。
  2. GCN
    GCN的聚合和组合函数如表所示,其中A是激活函数,w是可学习的参数矩阵。
  3. GraphSAGE
    和GCN不同,它使用||作为组合函数,这个可以更好的保留当前节点自身的信息。不同的聚合器(mean,max pooling)被使用,然而,它需要用户自己去选择一个合适的聚合器,对于当前的任务,这样可能会导致次优的。
  4. GAT
    GAT通过使用注意力来解决上述问题,学习邻居之间的相互作用aij。通过学习到aij在所有的边,包括它自身的循环。GAT使用加权求和来进行聚合。这个注意力的使用,可以学到邻居之间的关系,带来很多提升。

平滑度量

cv表示当前节点自身的信息,sv表示环绕当前节点的特征,代表着从其他的邻居节点聚合的特征。既然邻居聚合可以被认为是图中的卷积操作,我们把聚合器当作一个加权的线性聚合,可以表达大多数已存在的就聚合器。然后重新定义通用GNN框架来作为一个上下文环绕的框架,使用两个映射函数f1和f2
file
对于公式1,GNN和传统卷积网络最大的不同在于,它能聚合周围的节点的信息到上下文中。节点的特征可以被认为是信号,包含噪声。因此,我们把上下文信息分解成两部分:真正的信号和噪声信号。
然后一如理论1:合适的聚合器可以减少噪声。具体表现在:mean操作能够降噪,maxpool不能降噪,sum反而会增大噪声。

特征平滑

首先分析了不考虑噪声时的来自周围节点的增益。使用KL三度来度量从一个节点的周围获取的信息增益。当所有的上下文向量等于周围的输入时,上下文的分布完全和周围一样,这种情况下,散度为0,意味着不能从周围获取到增益。另一方面,如果上下文和周围有着不同的分布,则散度是严格正的。注意在实际中,上下文的GT和周围信号是未知的。可学习的聚合器也是位置的。因此,我们提出一个度量来估计散度。定义:
file
从上述定义来看,大的λ意味着图的特征信号有着高的频率,意味着两个节点的特征更远。换句话说,不相似的特征节点更趋向于连接

标签平滑

因此,对于节点分类任务,可以合理地考虑具有相同标签的邻居会贡献正信息,而其他邻居会带来负面干扰。
file
大的λ暗示着不同的标签的节点更倾向于连接,周围贡献更多的负的信息。小的λ才意味着节点可以从周围获得正的增益。如果一些图没有很多的标签节点,我们会使用标签数据的子集来估计λ,通常能得到一个良好的结果。

总之,我们提出了一个上下文环绕的框架,引入了两个平滑度量来估计周围的信息能够提供多少信息,大的λf,和这些信息能有多有用,小的λl。

CS-GNN

使用上述提到的两种平滑

THE USE OF SMOOTHNESS FOR CONTEXT-SURROUNDING GNNS

CS-GNN的聚合是加权求和,结合方式为拼接。为了计算第k次迭代的相互关系,我们使用一个倍数的注意力模型。我们通过当前节点和其所有的邻居节点的点积,然后使用softmax,最终每个协同系数定义:
file
其中:
file

  1. 我们使用λl丢弃具有负信息的特征,如果a小于第r个最小的注意力协同系数,我们久将其设置为0.因为这些邻居可能会有噪声信息,丢弃他们对节点信息特征的保留具有帮助。
  2. 根据经验,我们得到合适的维度,因为大的维度会导致注意力机制变化,小的维度则会限制表达能力。
  3. 注意力系数和GAT不同,GAT使用特征来计算注意力系数,而相反,我们使用q,而不是节点或邻居节点特征,这是因为,大的λf暗示着不想死,因此是哦伊尼哥q,我们获得大的a,当节点和邻居节点不相似时。例如,当节点和邻居节点很相近是,q特别小,因此a也会很小。

使用注意力系数后,每个节点:
file
其中wl是可学习的参数,能够充分利用特征向量,最后,对于分类任务:
file
同样w是一个可学习的参数,y是预测类别

SIDE INFORMATION ON GRAPHS

辅助信息可以分为两种类型:上下文和周围环境。 通常,附加在节点上的辅助信息属于上下文,而边缘或邻居的辅助信息则属于周围环境。 为了将辅助信息整合到我们的CS-GNN模型中,我们以本地拓扑功能为例。

最后修改日期: 2020年10月24日

作者

留言

头像

GNN第一类痛殴也能够是什么意思」觉得作者应该打错了,但是不能猜出意思.

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。