内容纲要

deepmind的论文

introduction

prototype的网络能够达到50%的水平,但是如果在测试集合上训练相同的训练集,则可以达到84%的准确率。是什么原因导致分布内样本与分布外样本的性能之间存在巨大差异?作者假设因为原型网络的神经网络主干是为分类而设计的,所以它们这样做是:只代表图像的(训练集)类,并丢弃了可能有助于分布失类的信息。 这样做可以将许多元学习算法的损失降到最低。

监督信息崩塌的例子:如图所示,每一行中,最左侧是一个query数据集,剩下的9个是最相近的9个邻居,使用prototype网络在training数据集和test数据集上同时训练的。其中,这些邻居中,使用药瓶的图标表示测试集中的图片,其他都是训练集中的图片。
file
对于一个简单的分离器来说,相似语义图片应该有着相似的特征,因此我们希望最邻近店应该来自同一个或者语义相似的类别。但是我们发现,对于test-set的query,只有5%的匹配上。更进一步的,很多匹配都是同一个不正确的训练数据集,比如途中红色框圈出来的,而且,很多错误的类别通常有着差别很大的外表。一种解释是,网络会在训练过程中获取图像pattern,从而将每个类别的图像紧密地组合在特征空间中,从而最大程度地减少了图像可能与其他类别相似的其他方式,从而为进行自信的分类做准备。对于域外样本,网络可以过分强调一个伪造的图像模式,该图像建议一个训练集类别中的成员身份。这是监管崩溃的结果,可能会导致正确关联的图像模式丢失。

我们的第一个贡献是探索使用自我监督来克服监督崩溃。我们使用SimCLR [15],该算法可学习在数据集中的每个图像之间进行区分的嵌入,同时保持对变换的不变性(例如,裁剪和颜色偏移),从而捕获的不仅仅是类。 但是,我们没有将SimCLR视为辅助损失,而是将SimCLR重新定义为“episode”,可以按照与训练episode相同的方式对其进行分类。

我们的第二个贡献是一个名为CrossTransformers的新颖体系结构,该体系结构将Transformers [87]扩展到了很少的细粒度分类。我们的主要见解是,对象和场景通常由较小的部分组成,局部外观可能与训练时所见相似。经典的例子是半人马座,出现在几篇关于视觉表示的早期论文中[11,40,88],其中人和马的部分构成了半人马座。

CrossTransformers对以下方面的见解进行了操作:(i)基于局部的比较,以及(ii)考虑空间对齐,从而产生了一种比较图像的过程,该过程与基础类无关。 更详细地,首先像transdormer一样,通过注意力建立查询和支持集图像中几何或功能部分之间的粗略对齐。 然后,在这种对齐方式下,计算相应局部特征之间的距离以告知分类。 我们证明这可以改善对看不见的类和域的泛化。

总而言之,我们在本文中所做的贡献是:(i)通过自我监督技术,改进了最新的SimCLR [15]算法,提高了局部特征的鲁棒性。(ii)我们提出了CrossTransformer,这是一种具有空间意识的网络体系结构,并使用更多的本地特征执行少量快照分类,从而改善了传输。 最后,(iii)我们评估并消除了这些算法中的选择如何影响元数据集[85]的性能,并在其中几乎每个数据集上都以较大幅度证明了最新结果。

methods

SImCLR

但是,当我们唯一的监督是标签时,我们如何训练要素来表示超出标签的事物? 我们的解决方案是自我监督学习,它发明了“前置任务”,可以训练没有标签的表示,而且更好的是,它在超越该前置任务的表示中享有声誉。
具体来说,我们使用SimCLR,它使用“实例区分”作为前置任务。它通过对同一幅图像应用两次随机图像变换(例如裁切或颜色偏移)来工作,从而生成该图像的两个“视图”。 然后,它训练网络,以使同一图像的两个视图的表示彼此之间的相似性高于对不同图像的视图的相似性。从经验上讲,以这种方式训练的网络变得对语义信息敏感,而且还学会在单个类中区分不同的图像,这对于防止监管崩溃很有用。

尽管我们可以将SimCLR视为嵌入过程中的辅助损失,但我们选择将SimCLR重新构造为episode学习,因此该技术可以应用于具有最小超参数的所有情节学习者。为此,我们通过将每个图像视为自己的类,将50%的训练episode随机转换为我们所谓的SimCLR episode。为了清楚起见,我们将尚未转换的原始episode称为SimCLR情节 MD-categorization episodes,以强调它们使用了Meta-Dataset中的原始类别。
具体来说,令ρ(·)为SimCLR的(随机)图像转换函数,令S是训练支持集。我们通过采样一个新的支持集并转换原始支持集S来生成SimCLR集。然后通过从相同的支持集对其他转换进行采样来生成查询图像,其中random_sample仅从集合中获取随机图像。原始查询集合Q被丢弃。 SimCLR情节中图像的标签是其在原始支持集中的索引,从而导致每个查询的| S |方式分类。

CrossTransformers

CrossTransformers首先使图像表示成为一个空间张量,然后通过将支持集图像S c与查询图像相对应来组装与查询对齐的类原型。 然后计算每个类的查询图像与查询对齐的原型之间的距离,并以与原型网类似的方式使用。在实践中,我们使用基于注意力的transformer建立软对应。相比之下,原型网使用的平面矢量表示法会丢失图像特征的位置,并具有独立于查询图像的固定类原型。

具体来讲:,CrossTransformers删除了原型网络嵌入网络中的最终池化空间,从而保留了空间尺寸H‘和W’,在transformer精辟,然后使用两个独立的线性映射为支持集中的每个图像生成键值对。类似地,使用查询头Ω嵌入查询图像特征。 然后,在键和查询之间获得点积注意力得分,然后对所有图像和位置进行softmax归一化。该关注点用作我们的粗略对应关系,用于将支持集功能聚合到与查询对齐的位置。此过程如图2所示。
file

最后修改日期:2020年12月29日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。