内容纲要

本文是一篇ECCV2020的论文,看标题应该是讨论的是base数据集对少样本学习的影响。

摘要

图片特征的质量和概括性由训练数据决定,但是人们对这种经常被忽视的影响知之甚少。这篇论文中,作者主要系统的研究了训练数据的变化的影响力。通过评估在不同图像集合上训练的深度特征。作者提问了一些问题

  1. 给定固定的注释,每个类别的图像数量和类别的数量最优的trade-off权衡是多少?
  2. base类和novel类的相似度有什么影响
  3. 给定一个固定的数据集,分开/组合不同的类别是否能提高特征提取
  4. 一些简单的或者分散的类别是否应该标注

关键词: Dataset labeling, few-shot classification, meta-learning, weaklysupervised learning

Introduction

摘要提出的问题:
file
以前的工作,作者发现,base训练集的(变体?方差)不会很影响迁移的表达能力,特别是对于类别和类别样本数量平衡的。然而,这和我们的实验结果完全相反,trade-off及其重要。我们的少样本学习设置,只关注训练数据的影响,而不考虑复杂的域迁移问题。
我们的工作,同时关注概述数据收集策略和调查方向,从而产生boost表现。也有论文自处,使用一个 “Selective Joint Fine-Tuning”的策略,用于迁移学习,在源域中选择仅仅几张图片,使用低级的特征,和目标域数据集相似然后联合训练。我们的结果,表明为什么这会发生。每个类别中少量图片经常能有效的获取好的特征。

Related works

数据选择和采样

训练图像选择通常是主动学习解决的问题。主动学习的目标是,选择一些样本的子集进行标注,同时获得与完整标注的数据集的表现性能相似。一个通用的策略是,通过设计回报函数(熵,互信息,错误统计)等来移除数据中冗余的部分。这些主动学习方法都是关注固定的类别的数据集,没有在新颖类的特征进行分析。和主动学习有关的是采样策略。
本文的方法,尝试理解好的训练样本的关键属性来移除大数据集中不必要的样本。

FSL

关于base类的选择,仍然未被挖掘,事实上,base类的选择很大程度上影响表现能力。Meta-dataset论文调查了元训练超参数对表现力的影响。同时,也指出,选择性的base数据集进行训练会比随机选择的base类数据集要好。

方法

file如图所示,我们训练一个特征提取器f,余弦分类器在base类上。然后对于新颖类上定义一个线性分类器。其中,线性分类器的定义:对于一个类别,按公式file计算。其实就相当于prototype,只是它首先进行L2归一化。以前的工作都是关注算法设计,来提高新标签的分类能力。*相反,我们探索另一种方向,即使用正交的训练数据集训练的特征,来比较相同的分类器性能。

结果

file

  1. 使用miniIN-6K进行训练可以提升20%左右,一个很自然的解释是,base训练姐和测试数据集有着关联。这种振幅变化,比设计复杂的少样本学习算法提升了很多。
    file
  2. 数据集总数一定的情况下,类别数和每个类别之间样本数之间的关系:
    file

    1. 类别太少或者每个类别中的样本太少都会影响最终的性能。不同数据集上,具体的类别数和样本数情况不同。CUB的话更倾向于更多的类别和少数的图像。这可能是因为,数据集有着好的细粒度。
    2. 尽管,不同算法有着不同的trade-off最优解,但是从整体来看,都偏向于更多的类别的较少的样本/每类。因此少样本学习方法的base类选择,也会有影响。
    3. 倾向更多的类别的原因,可能是避免了过拟合,也可能是会提升学习到的特征的质量。
  3. 适度的类别多样性-避免最多和最少的类别-似乎是有益的,而使用最困难的类别似乎有损于表现。
[1]
L. Zhou, P. Cui, X. Jia, S. Yang, and Q. Tian, “Learning to Select Base Classes for Few-shot Classification,” 2020. Accessed: Jul. 28, 2020. [Online]. Available: http://arxiv.org/abs/2004.00315
[1]
E. Triantafillou et al., “Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples,” Apr. 2020. Accessed: Oct. 08, 2020. [Online]. Available: http://arxiv.org/abs/1903.03096
最后修改日期: 2020年10月8日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。