内容纲要

这是一篇ICCV2019的论文。
代码开源: https://github.com/haofusheng/SAML

摘要

FSL旨在学习潜在的模式,从少量训练样本中。然而,直接计算query喝support之间的距离可能导致模糊,因为占主导的目标可能会位于图像中任何地方。为了解决这个问题,我们提出来语义对齐度量(SAML),对齐语义相关的显著目标,通过collect-and-select策略。具体而言,我们首先计算关系矩阵,来colletc每一个局部区域对(query和support平均的之间)的距离。然后使用attention技术,select语义相关的对并赋予更多的权重。

Introduction

开头还是讲metric的优越性。然后motivation:如同摘要里所说
file
如图所示,两幅图像都是同一个类别,到那时关键目标dogs出现在不同的位置,根据空间索引直接计算两幅图像的距离会引入模糊,比如support中dog的头会对应着dog的尾巴。作者提出的SAML会对齐这些局部区域,使用相同的语义信息。即,红框和黄框才是成对的,而红框和蓝框不是成对的。

Related works

作者将其分成四类 metric learning, meta-learning, hallucination, and attention-based

Metric-based

度量学习三步走:映射所有图片到嵌入空间;计算每个query图像到所有的support图像之间距离;赋予query图像以最近距离的support图像标签为标签。很多方法关注前两步,第三步则是现成的,无需要设计。

Gradient-based

都是基于梯度的去适应新任务

Hallucination

两种不同的方向:使用类别无关的变换来生成足够多的新样本;后续的发展有结合meta-learning的和gan的。

Attention-based

有使用空间注意力来选择相似的训练数据进行标签预测,因此呈现出一个双注意力网络,基于两个注意力。还有提出Attention Attractor的网络。还有A-MCG网络,集成多尺度信息。相反,作者是采用注意力机制来选择语义相关的区域。

Methods

整个模型的框架
file

SAML

3D向量可以更好的捕捉空间信息,因此比较受欢迎。这些3D向量可以认为是局部的区域特征。
惯例,特征求平均 file

Colletc and Selcect

file
也比较简单,遍历所有hw,求一个相似度矩阵。不过是每个局部的位置。
得到rij矩阵后,在赋予注意力,使得关注更多的相似性的部分。
其中注意力的定义为:
file
file
最后通过一个MLP+softmax得到最后的分类分数。
file
file

结果

由于论文是前年的,分数低很正常,主要是思想,我感觉和cross-attnetion有点像。可能是后者受这篇启发的。

最后修改日期:2020年10月13日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。