内容纲要

这是一篇NIPS的论文,讲的是和attention有关,和上一篇有相似之处。

摘要

许多现存的方法都是独立的抽取有标签和无标签样本,这样,得到的特征不是很有鉴别力。这项工作中,我们提出一项新颖的cross attention network来解决这个挑战。首先,Cross Attention模块解决未见过的累的问题,这个模块生成cross attention图到每个匹配的query样本和其类别特征,这样可以高亮目标区域,使得提取出的特征更加具有区分度。其次,使用transductive推理算法,来解决样本少的问题,即使用无标签的query label来解决。因此,使得类别特征更具有表达性。

Introduction

一方面,对于测试图片来说,都是来自未看见的类别,因此他们的特征很难针对目标。具体而言,对于一个包含多目标的图像,提取的特征可能更倾向于以前见过的类别,这些类别有大量的标签,而忽视未见过的类别的目标。
file
如上图所示中cd所示,测试目标是窗帘,但是由于训练集训练过人和椅子,因此得到的注意图如d所示,可能会导致更关注人和椅子而忽视窗帘。
另一方面,少样本使得特征的分布不具有概括性,不能很好的表达数据的分布。
后面就是摘要的部分,如何解决这个问题,提出两个。

Method

依旧是基于度量的方法。

CAM Overview

CAM结构如图所示,包含
file

Correlation Layer

这一层就是计算提出来的特征的余弦相似度,
file
基于R提出两个Correlation Map

  1. 一个是Rp = R的转置filefile
  2. 一个是Rq = R file

rp表示局部的特征向量pi和所有的query向量的关系。同理rq表示局部的query特征和所有的support特征之间的关系。这种情况下,可以得到类别与querey特征之间的图。

Meta Fusion Layer

用来生成注意力图,如图2所示,把Rp作为输入,然后应用m * 1大小的卷积核w,来fuse每个局部的关系向量作为注意力特征。然后使用softmax获得每一个位置的注意力特征。
file
W至关重要,除了聚合所有局部信息外,加权的聚合更关注于目标,而不是简单的高亮视觉相似的区域。
通过一个元学习器meta-learner来得到权重:
file
上式非线性的模型允许一个灵活的变换。对于每一个目标,meta-learner倾向于学习一个权重w来获取目标的注意力。这通过减少分类错误来训练。
最后如图所示,加入shortcut,方便训练

Network overview

file
分类模块包含最邻近分类和全局分类器。

  1. 最邻近分类器。通过预定义的分类方法(余弦)来计算query图到所有C类support的距离。为了得到精确的注意力图,我们约束每一个query的位置的特征图都能正确分类。具体而言,对第i个位置的query特征q_i^b,最邻近分类器的分类:
    file
  2. 全局分类器。即使用query集合的数据标签。
    file

这样我,网络可以端到端的训练。

Inductive vs Transductive

  1. Inductive 就是直推
  2. Transductive
    具体而言,首先初始化类别特征图Pk预测无标签的query样本的标签,使用这个公式:file
    然后,定义一个标签置信度准则,使用query样本x_b^q和它最相近类别的邻居的距离,filefile余弦相似度。c_b^q越低,预测标签的置信度分数越高。基于此,我们可以获得一个候选集合file其中sb属于 {0,1} 暗示着query样本的选择指示器。选择指示器是通过top t个置信度query样本file最终,候选D加入S中,用来生成更具表达的类别特征。file

结果

file

最后修改日期:2020年10月14日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。