内容纲要

不是说预训练模型越强越好,作者举了个例子,稍后讲。

Introduction

从常识上讲,预训练Ω越强,下游模型越好. 但事实上并不如此,比如在遇到目标和背景具有强相关的时候,此时越强的模型在遇到背景和目标不相关的情况下会失效,导致错误分类。这里面就有一个因果关系。如果我们使用更强的Ω,则所看到的旧知识(“草”和“颜色”)将比看不见的新知识(“狮子”和“狗”)更健壮,因此,旧知识会变得更具误导性。
在本文中,我们首先指出了造成这种缺陷的原因:在FSL中进行预训练会带来上述缺点,然后提出一种新颖的FSL范式:干预性的少量学习(IFSL),以对抗缺点。我们的理论基于对预训练知识,少量样本和类别标签之间的因果关系的假设。 具体来说,我们的贡献总结如下。

  1. 我们从第2.2节中的结构因果模型(SCM)假设开始,该假设表明,经过预训练的知识本质上是一个混杂因素,导致样本特征与支持集中的类标签之间存在虚假的相关性。作为图2(b)中的直观示例,即使“草”特征不是“狮子”标签的起因,但有关“草”的先验知识仍然使分类器感到困惑,以了解它们之间的相关性。
  2. 在第2.3节中,我们说明了为什么提议的IFSL从根本上更好地起作用的因果理由:它本质上是多次学习的因果近似。这激励我们使用第3节中的后门调整开发IFSL的三种有效实现
  3. 由于有因果的干预,IFSL自然地与基于下游的微调和基于元学习的FSL方法不同。
  4. 我们进一步诊断了FSL方法在S和Q之间不同相似性方面的详细性能。我们发现IFSL的性能优于每英寸的所有基线。

Structural Causal Model

file
D为数据集,X为数据特征,C为低维流形的X的迁移特征表达,它的base来自于D。Y为预测的类别ie以及分数。

  1. D->X 表示为在预训练模型Ω的表征下所提到的特征。(需要注意的是,这个Ω应该是预训练的网络参数?看了一下,应该是指特定的模型,参数可以多样化。)

  2. D->C 数据点通过维度减少的方法嵌入到流形中,有经验表明,在训练深度网络过程中,出现了可分解的语义流形。

  3. X->C 特征可以使用manifold的base来线性或者非线性表达。其中,这个base可以认为是基于通道的特征或者基于类别的特征。

  4. X->Y<-C X流向Y有两种方式: 第一种为直接流入x->Y。第二种为间接流入X->C->Y。当模型全部由第二种流入(比如基于特征的调整)时,第一种流向可以删掉。第二种是不可避免的,尽管分类器没有将C作为显式的输入,因为任何的X都可以通过C来表达。比如通过两个基向量和噪声向量的线性组合。事实上,无监督的特征表达也能验证这一点。如果C->Y不存在,从P(Y|X)中发现潜在的特征表达将不可能,因为只留下来一条路径:从D迁移知识到Y,D → X → Y,而这条路径在基于X的情况下会被砍掉:D不->X->Y。

一个理想的FSL模型应该捕捉X与Y的真实因果关系,从而到未见过的任务中也表现很好。我们希望一个狮子仅仅从它的狮子本X身特征来识别,而不是通过背景草,然而从SCM结构来看,P(Y|X)则无法做到,因为X导致Y是通过X->Y和X->C->Y,同时还有伪关系,通过:

  1. D->X 例如草的知识生成草的特征
  2. D->C->Y 草的知识生成草的语义,对狮子标签提供了有用的上下文。

因此,为了保证X与Y的真实因果关系吗,我们需要人为干预。

Causal Intervention via Backdoor Adjustment

对于样本数量多的情况,为什么file为了回答这个问题,我们需要解释特征采样file到估计P(Y|X),其中I表示样本ID。我们有filefile也就是说我们可以使用P(Y|I)来估计P(Y|X)。在图四中,I和X的因果关系完全是I->X,也就是说,X->I不存在,因为DNN特征是抽象的和减少离散表达。然而,对于图4b,X->I存在FSL中,因为模型会很容易猜出对应关系,也就说1-shot是1-to-11对应的关系:x<->I。因此,如附录1所示,MSL和FSL不同的关键是MSL本质上是使得I做一个instrumental variabled带到P(Y|X):=P(Y|do(X))。直观上,我们可以看到I和D通过coliders使得I和D独立。因此 ,特征X本质上被I阻断,而不是由D主宰,通过控制预训练只是来模拟因果干扰。

关于这一部分的解释,在附录1:

d-separation

一组节点Z在且仅当以下情况时阻塞路径p:

  1. p包含链A->B->C或岔路A<-B->C,同时B在Z中。
  2. p包含collider对撞 A->B<-C,B和他的后代都不在Z中。

如果Z阻塞X与Y中的所有路径,则我们称为X和Y为d-separated,也就是说,给定Z下,XY相互独立。

Instrumental Variable

对于一个结构化因果模型G来说,一个变量Z是一个X->Y的instrumental variable,需要满足图判准:

  1. Z⊥Y,其中G是受到操纵的图,其中所有指向X的箭头全部删除
  2. Z不垂直Y

对于MSL,很容易得到I满足两个判别因此对X->Y来说是一个IV

最后修改日期: 2020年12月16日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。