学习图像的良好特征嵌入通常需要大量的训练数据。 因此,在训练数据有限的环境中(例如,少样本法和零样本法学习),我们通常被迫在各种任务之间使用嵌入通用特征。 理想情况下,我们要构造针对给定任务调整的特征嵌入。 在这项工作中,我们提出了任务感知特征嵌入网络(TAFE-Nets1),以学习如何以元学习的方式使图像表示适应新任务。 我们的网络由元学习者和预测网络组成。 基于任务输入,元学习器为预测网络中的特征层生成参数,以便可以针对该任务准确调整特征嵌入。 我们证明,TAFE-Net在生成新任务或新概念方面非常有效,并且可以在零样本和少样本学习中以一系列基准评估TAFE-Net。我们的模型在所有任务上都达到或超过了最新水平。 特别地,我们的方法在具有挑战性的视觉属性-对象合成任务中将看不见的属性-对象对的预测精度提高了4到15点。
1. Introduction
函数嵌入对于计算机视觉至关重要。 通过将图像映射到语义丰富的向量空间中,特征嵌入可提取可用于各种预测任务的关键信息。 但是,学习良好的特征嵌入通常需要大量的训练数据和计算。 因此,一种常见的做法[8、14、53]是重复使用在大规模标签训练数据集(例如Ima)上训练的卷积网络(例如ResNet [18],VGG [37])中的现有特征嵌入 -geNet [36]); 为了获得最大的准确性,通常使用其他任务特定的训练数据对这些通用特征嵌入进行微调[8,14,53]或转换[19]。
在许多情况下,训练数据不足以学习甚至无法将通用特征嵌入应用于给定任务。 例如,在零样本和少样本预测任务中,训练数据的稀缺性迫使使用通用特征嵌入[26、49、55]。 结果,在这些情况下,许多研究转而集中在联合任务和数据嵌入[4、12、55]的设计上,这些设计可以推广到看不见的任务或使用更少示例的任务。 一些建议将任务嵌入视为线性分隔符,并学习为新任务生成它们[42,29]。 其他人提出了幻觉的额外训练数据[50,17,45]。 但是,在所有情况下,跨任务共享同一图像嵌入。 因此,对于任何单独的预测任务,通用图像嵌入可能超出域范围或次优,而对于全新的任务,甚至可能更糟。 在训练任务的数量和多样性相对较小的环境中,这个问题更加严重[11]。
在这项工作中,我们通过引入具有基于元学习的参数生成器的任务感知特征嵌入网络(TAFE-Net),将动态图像表示转换为任务感知特征嵌入(TAFE),探索了动态特征表示的概念。 如图1所示,TAFE的表示适合给定的语义任务描述,因此能够在测试时适应新任务的需求。 使用任务感知型元学习器实现特征转换,该任务会在图2所示的分类器中生成特征嵌入层的参数。通过使用TAFE,我们可以采用简单的二进制分类器来学习与任务无关的线性边界,该边界可以将正例和负例分开,并推广到新任务。
我们进一步提出了两种设计创新来解决由于训练任务数量有限[11]和参数生成的复杂性[3]而带来的挑战。 对于有限的任务,我们将任务嵌入与任务感知特征嵌入以及基于度量学习的新颖嵌入损失结合在一起。 通过联合对图像和任务进行聚类,由此产生的耦合改进了跨任务的泛化。 此外,参数生成需要从低维任务嵌入(例如,用GloVe [33]提取的300维矢量)中预测大量权重,这可能很复杂,甚至在实践中甚至都不可行,因此,我们引入了 新颖的分解方法,将权重分解为即时生成所需的一小组特定于任务的权重,以及在所有任务之间共享的一大组静态权重。
2 related work
我们的工作涉及零样本学习以及参数生成,动态神经网络设计和特征调制的几项研究。 根据我们的知识,在丰富的先有作品之上,我们是第一个研究动态图像特征表示以进行零样本和少样本学习的人。
零样本学习属于多模式学习机制,该机制需要适当利用多种资源(例如图像特征和任务的语义嵌入)。 许多[23、52、42、55、4、12]研究了基于度量学习的目标,以便共同学习任务嵌入和图像嵌入,从而获得相似性或兼容性评分,以后可以用于分类[31 ,42,26,1,2,12,39]。 从概念上讲,我们的方法与引入二进制分类器具有相同的匹配精神,该分类器可预测输入图像是否与任务描述匹配。 与以前的工作相比,我们根据任务变换图像特征,因此我们只需要学习与任务无关的决策边界,就可以像传统的监督学习一样,将正例和负例分开。 在我们的工作中,建议的嵌入损失也采用度量学习进行联合嵌入学习,但其主要目标是解决元学习中有限数量的训练任务[11]。 最近,在零样本[50,57]和少样本[17,45]学习中使用了数据幻觉,这表明未见任务的附加综合数据对于学习分类器很有用,并且可以加上判别模型[50,45]。 我们的(区分性)模型没有利用其他数据点,我们在实验中表明,我们的模型可以在广泛的基准上匹配或优于生成模型。
TAFE-Net使用任务感知型元学习器来生成特征层的参数。 几项努力[3、16、7]研究了采用一个元网络来生成另一网络权重的想法。 我们的任务感知型元学习器在权重生成方面起着相似的作用,但以一种结构化和约束性更高的方式。 我们研究了不同的机制来分解预测网络的权重,以便它可以一次为多层生成权重。 相反,Bertinetton等 [3]专注于为单层生成权重,Denil等人 [7]由于输出空间的平方大小,最多只能生成单层的95%参数。
TAFE-Net设计还与动态神经网络[44、48、43、27]上的工作有关,动态神经网络专注于运行时的动态执行。 Wang等人提出的SkipNet [44], 引入循环门控以基于输入来动态控制网络激活。 相反,TAFE-Net动态地重新配置网络参数,而不是像以前的工作[44,48]中那样重新配置网络结构,旨在学习给定任务的自适应图像特征。
在视觉问题解答领域,先前的工作[34,6]探索了使用问题嵌入网络来调制主要卷积网络的特征。 我们针对卷积层的因数加权生成方案也可以看作是通道级特征调制。 然而,所提出的参数生成框架比特征调制更通用,可以承载不同的分解策略[3]。
3. Task-Aware Feature Embedding
众所周知,特征嵌入是计算机视觉中许多应用程序[24、28、13]的基本构建块。 在这项工作中,我们介绍了任务感知功能嵌入(TAFE),这是一种适应给定任务的动态图像特征表示形式。 我们证明了这种动态特征表示在零镜头学习,少镜头学习和看不见的属性-对象对识别中具有应用。
我们从第3.1节中的TAFE-Net模型设计开始,然后介绍权重分解(第3.2节)和嵌入损失(第3.3节),以解决权重生成和训练任务数量有限的挑战。 我们将不同任务描述的规范以及各种应用程序的设置延迟到3.4节。
3.1. TAFE-Net Model
TAFE-Net中有两个子网,如图2所示:任务感知元学习器G和预测网络F。任务感知元学习器采用任务描述t∈T(例如word2vec [30 ]编码或示例图像,3.4详细介绍)同时生成在预测网络里的特征层的权重。
对于一个输入图像x,预测网络:
预测一个2值标签y,表示输入图像x是否和当前任务描述t相兼容。具体而言,我们采用在imagenet预训练的特征提取器生成输入图片的通用他认证,然后讲这些通用特征输入到一系列的动态特征层,参数记作θt,通过G(t)生成。动态特征层的输入记作“TAFE”,意思时同一张图片在不同的任务中的嵌入特征不同。尽管任务描述t虽然没有直接用作F的输入,但它控制F中要素层的参数,并将任务信息进一步注入到图像特征嵌入中。
现在,我们可以在F中引入一个简单的二进制分类器,以TAFE作为输入,以学习与任务无关的决策边界。 当需要多类预测时,我们可以利用不同任务描述下的F(x)预测,并将它们用作概率得分。 目标表述在第3.3节中。
由η表示参数的任务感知元学习器G由生成任务嵌入et的嵌入网络T(t)和一组权重生成器gi i = {1 … K}组成,权重生成器以相同的任务嵌入为条件在F生成k个动态特征层 。
3.2. Weight Generation via Factorization
现在,我们为F中的特征层提供权重生成方案。产生任务感知特征嵌入(TAFE)的特征层可以是卷积层或完全连接(FC)层。 为了生成特征层权重,我们将需要gi(通常是FC层)的输出尺寸来匹配F中第i个特征层的权重大小。如Bertinetto等人所述 [3],元学习者估计所需的权数通常比任务描述的权数大得多,因此,很难从少量示例任务中学习权重的生成。 此外,权重生成器g的参数化会消耗大量的内存,这使得训练成本高昂,甚至不可行。
为了使我们的元学习者有效地泛化,我们提出了沿着每个FC层的输出尺寸和卷积层的输出通道尺寸的权重分解方案。 这与先前的元学习作品中使用的低等级分解不同[3]。 基于卷积网络的通道的分解基于可能又不同的甚至正交的函数。
卷积的权重分解:将w刚分解成所有任务共享的参数,和基于当前输入的特定任务的参数,公式见原文。
FC的权重分解:同理,公式见原文。
结果,权重生成器只需要为低维的每个任务生成低维的特定于任务的参数,并学习在所有任务之间共享的一组高维的参数。
3.3 Embedding Loss for Meta Learner
用于训练任务感知元学习器的任务描述的数量通常比可用于训练预测网络的图像数量小得多。 数据稀缺性问题可能导致元学习者退化。 因此,我们建议为元学习者添加一个辅助嵌入损失Lemb以及用于预测网络的分类损失Lcls。 回想一下,我们采用了共享F中的二进制分类器,以预测任务描述和输入图像的兼容性。 为了能够区分图像属于哪个任务(即类别),而不是直接使用二进制交叉熵损失,我们采用了定义为以下形式的经过校准的多类交叉熵损失[52]:
对于嵌入损失,其想法是通过任务感知特征嵌入(TAFE)将潜在任务嵌入et = T(t)投影到联合嵌入空间中。 我们采用一种度量学习方法,对于给定任务的肯定输入,相应的TAFE更接近任务嵌入;对于否定输入,相应的TAFE远离任务嵌入,如图1所示。 铰链余弦相似度作为距离测量(即φ(p,q)= max(cosine_sim(p,q),0)),并且嵌入损耗定义为
我们在实验中发现,这种额外的监督有助于培训元学习者,尤其是在培训任务数量极为有限的情况下。 到目前为止,我们可以将总体目标定义为
留言