内容纲要

这是一篇CVPR2020的论文,从实验结果来看,分数挺高,可惜没有代码

摘要

我们从一个新的角度出发:图像领域最优匹配。我们采取Earth Mover’s Distance(EMD)作为度量,来计算致密的图像表达,作为结构化距离。EMD生成可优的匹配流。为了生成权重,提出cross-reference机制。可以有效的减少背景或intra-class的负面影响。

Introduction

基于度量的meta-learning方法通常都是替换最后一层的全连接层,而使用距离函数,比如余弦或欧氏距离。这种距离函数直接计算测试图片和训练图片之间的嵌入距离,而不用训练难以训练的分类器。

但是背景和巨大的intra-class偏差会导致即使同一类,他们的嵌入特征也相差很远。
另外,直接使用全局的特征表达,会破坏图像的结构,丢失局部的特征。局部特征可以体哦那个区分度和迁移性的信息,对图像的分类任务极其重要。因此,一个好的度量方法应该可以利用局部的有区分度的特征,减少其他无关区域的负面影响。

一个很自然的方式比较两个复杂的结构化的表达方式是比较他们的building blocks,但是困难在于,我么们没有他们的对应的监督信息,不是所有的building elements都能在其他结构中找到他们的counterparts。
为了解决这个问题,我们把少样本分类问题看作是一个最优化匹配问题。提出两个结构中的最优匹配代价来作为他们的相似度。给定输入的两张图像,我们采取Earth Mover‘s Distance(EMD)来计算他们的结构化相似度。EMD是一个计算结构化表达的度量,起初应用在图像检索。给定所有元素对之间的距离,EMD可以获得最优的匹配流。另外还可以解释为最小的代价来重建另一个结构化表达。通过解决一个线性问题,来实现EMD解。为了实现end-to-end的训练,我们使用 implicit function theorem来组成jacobian矩阵。
另外一个重要的问题就是EMD公式中的每个元素的权重。有着大权重的元素生成更多的matching flows因此对整个距离的贡献很大。理想情况下,算法应该很灵活的赋予无关区域以小权重,无论他们的元素匹配成什么样。为了达到这个目的,我们提出cross-reference机制来检测元素的重要性。在cross-reference中,每个节点用来和其他结构中的全局策略进行比较。这旨在给少的权重到背景区域,以及前景但是不相干的区域。
在Kshot学习中,我们提出一个机构化的全连接层,作为一个分类器,充分利用日益增长的训练图片。结构化的FC层包含一组可学习的类别向量。在推理阶段,我们使用图像的嵌入和可学习的vector之间的EMD距离。结构化的FC是标准FC的拓展,不用点积,而是向量之间的EMD函数,以至于结构化FC可以直接分类特征图。结构化FC可以呗认为是学习一个prototype,测试样本可以match的。

Method

首先回顾一下EMD,并描述如何将FSL问题转化成最优匹配问题。然后叙述cross-reference机制,最后介绍结构化FC。网络框架如图所示:
file

Revisiting Earth Mover’s Distance

EMD在运输问题中有着很好的研究。具体而言:
file

EMD for Few-Shot Classification

和以前的度量学习基于图片级别的方法不同,我们基于有区分度的局部信息。我们将图片分解成一组局部的表达,然后使用最优匹配方法来表示相似度。具体而言,首先应用一个全卷积网络生成图像的嵌入。每个图片特征包含局部特征向量 u1,u2,uhw,每个向量ui可以看作是一个节点。因此,两个图片的相似度可以认为两组向量的最有匹配。仿照公式1.每个单元的cost可以通过计算距离来获得:
file
其中,有着相似的节点倾向产生更少的代价。至于生成权重si,jj,我们在下届详细讲,一旦获取最优流,我们可以计算两个特征之间的相似度:
file

End-to-End Training

为了能够端到端的训练,我们使用implicit function theorem 在KKT条件下获得Jacobian。为了完整性,我们从公式1看来,拉格朗日对偶,另下式为0,得到最优解:
file
好吧,我放弃了,这一部分没看懂。应该就是从Barratt里摘抄的。因此,一旦得到最优解x,我们可以得到x的关于输入θ的梯度闭集表达式,整个优化过程,不存在初始化的扰动或者优化国际的扰动,便可以达到一个高效的梯度传播。

Weight Generation

接下来就是si的定义,控制着整个匹配流。直观上,有着大权重的节点,对于整个路线的规划有着重要的作用。以前在图像检索中,他们使用直方图作为元素特征,然后使用特征聚类生成节点。每个节点的权重对应着聚类后的簇的尺寸。然而,对于少样本来说,特征通常有着高层的语义,像素的数量不一定影响重要性。有很大的可能性,寻找背景区域而不是目标区域。因此,局部特征表达的重要性不能仅仅有独立的几张图片来确定。相反,我们认为,对于少样本分类任务,node的权重应该通过对比两边而生成,为了得到这个目的,我们提出了一个cross-feature:
file
最终,我们归一化所有的s:
file
同样的方法得到di

Structured Fully Connected Layer

传统的FC更像是学一个每个类被的prptotype,然后可以利用距离度量来分类。FC层本质是点积的,然后还有用余弦相似度的,其实道理都一样。而我们则采用一个EMD作为距离度量,来直接分类结构化特征。每个类别的学到的特征变成一组向量,而不是一个向量吗,这样我们可以使用结构化的距离函数EMD来进行图像分类,这个可以被认为,我们学习一个prototype,不过是每个类别的一个dummy图像。如图所示,在推到阶段,我们固定训练的FCN,然后使用SGD学习结构化FC的参数,通过采样support数据集。

file

结果

分数很高:
file
可视化结果,可以看到很好的进行了匹配:
file

很强大,这一篇CVPR实至名归

最后修改日期:2020年10月16日

作者

留言

头像

Github上有代码

    头像
    作者

    嗯嗯,后来找到了:https://github.com/icoz69/DeepEMD
    (其实发邮件问了作者,尴尬)

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。