内容纲要

这是一篇ECCV2020的论文,还是说迁移学习的方法比大多数的少样本学习方法有用


摘要

在meta-training上学习一个监督和自监督的表达,要比其他的元学习方法好。另外作者还提出自蒸馏的方法来获取额外的收益。
开源:http://github.com/WangYueFt/rfs/

Introduction

少样本学习方法一般分成两类,1,基于优化的( Optimization-based methods )这种方法关注设计一个算法,能够快速适应到每个人物。 2,基于度量学习的方法(metric-based methods)旨在寻找一个好的度量或者是核函数,从而避免对每个任务的内循环优化。

在FSL中,一个问题被提出:到底是元学习算法还是学习到的表征,是快速适应测试阶段的任务的根本原因。有人说是特征复用是快速适应的主要原因。最近,提出一个transductive的fine-tuning方法,做一个baseline,论文还指出,甚至inductive的方法仅仅比SOTA方法轻微差。

这篇论文中,我们提出一个极其简单的baseline,暗示着好的学习的表达更强大。我们的baseline包含一个线性模型。和不同,我们不需要test的信息,因为我们认为,industive learning更通用。我们使用一个固定的神经网络进行特征提取,在测试阶段不改变。

训练阶段:使用全部的数据集,当作一个任务。这样其实等价于TADAM和LEO的预训练阶段。
测试阶段:固定特征提取层,对于每个任务,我们拟合一个线性分类器。不需要fine-tune整个网络。

更进一步,我们发现自蒸馏的方法会提供进一步的收益。自蒸馏也就是知识蒸馏,其中老师和学生模型在任务和结构上都是一样的。

Method

训练阶段,如图所示,把所有训练数据集作为一个整体进行预训练。
file
测试阶段,如图所示,base learner是一个多变量的逻辑回归。参数包含w和b。另外作者还研究了其他分类器,比如基于L-2距离或者余弦距离的分类器。
file
论文在mini-imagenet上5-shot上的得分有79.64+-0.44

讨论

本篇论文和有相似之处,但是结论想法。为什么呢?
主要是把以前的算法统一起来,抛开其他因素,比如数据增强等,专心对比算法的优劣。另外文章还提到两种baseline的方法。和本片文章比较相似之处。
file

Baseline 方法

训练阶段:我们训练一个特征提取器f,参数为θ和一个分类器C,参数为w。
调优阶段: 为了适应新颖类,我们固定模型参数θ,训练一个新颖类的分类器。
这两个分类器均是一个权重矩阵,不包含偏值b。

Baseline++ 方法

上述一种方法的变体,在训练过程中,显式的减少类内特征距离。在度量学习中,减少类别内特征距离的重要性毋庸置疑。
和baseline不同,++的分类器可以被认为是一一系列的权重组合,每个权重代表一个类的prototype,这样的话可以减少类别之间的差距。

两篇论文的不同之处

  1. 本篇论文预训练的话,是构建一个大型的标准的分类器,而不是episode相关。而closer look这一篇则是在每个episode中,都构建一个小型分类器。另外本文分类器有着wx+b,而closer look分类器只有wx。

  2. 从结果来看。mini-imagenet的5-shot情况下,backbone为resnert-12:

    本文 closer look
    线性分类器 79.64+-0.44 74.69+-0.64
    距离分类器 69.96 75.90+-0.61
  3. 当类别少时,使用基于距离的分类器要比线性分类器好,当类别比较多时,使用标准的线性分类器比较好。

[1]
W.-Y. Y. Chen et al., “A closer look at few-shot classification,” Apr. 2019. Accessed: Aug. 24, 2020. [Online]. Available: http://arxiv.org/abs/1904.04232
[1]
G. S. Dhillon, P. Chaudhari, A. Ravichandran, and S. Soatto, “A Baseline for Few-Shot Image Classification,” 2020. Accessed: Sep. 01, 2020. [Online]. Available: http://arxiv.org/abs/1909.02729
最后修改日期: 2020年10月8日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。