guodong's blog

PhD@zhejiang university
   

论文阅读:Exploring Bottom-up and Top-down Cues with Attentive Learning for Webly Supervised Object Detection

只是arxiv上的文章

摘要:近年来,完全监督的对象检测取得了巨大的成功。 但是,需要大量的边界框注释来训练新颖的类的检测器。 为了减少人工标记的工作量,我们针对新颖的类提出了一种新颖的网络监督对象检测(WebSOD)方法,该方法只需要Web图像而无需进一步注释。 我们提出的方法结合了自下而上和自上而下的线索,以进行新颖的类检测。 在我们的方法中,我们引入了一种自底向上的机制,该机制基于训练有素的完全监督的对象检测器(即Faster RCNN)作为Web图像的对象区域估计器,方法是识别基础类和新颖类共有的客观性。 利用网络图像上的估计区域,我们然后使用自上而下的注意提示作为区域分类的指导。 此外,我们提出了残差特征优化(RFR)块来解决Web域与目标域之间的域不匹配问题。 我们在PASCAL VOC数据集上演示了我们提出的方法,该数据集具有三个不同的新颖/基本拆分。 在没有任何目标域新颖类图像和注释的情况下,我们提出的网络监督对象检测模型能够为小说类实现有希望的性能。 此外,我们还对大规模ILSVRC 2013检测数据集进行了转移学习实验,并实现了最先进的性能。

一种新颖的类目标检测的简单方法是简单地使用网络图像及其图像级别的“标签”(本质上是用作搜索短语的预定义标签来获取图像),通过使用弱监督检测器来训练网络对象检测器,并将检测器直接应用于目标图像域。 但是,这种基于Web的幼稚的弱监督方法会产生较差的性能。 这主要是由于弱监督模型的边界框定位不佳。 此外,Web域和目标域之间的域差异也加剧了该问题。

为了解决弱监督对象检测方法在网络图像上定位不充分的问题,我们建立了一种用于新型类检测的新型网络监督对象检测(WebSOD)方法。图1说明了问题设置。 在我们的方法中,我们将自下而上和自上而下的提示结合起来用于新颖类的网络图像,以训练新颖类探测器。 考虑一个典型的两阶段对象检测器,它包含一个区域建议生成器,用于定位可能包含这些对象的显着区域。 如[15]中指出的,在一种完全监督的对象检测方法中,检测模型能够学习一些领域不变和类不可知的对象知识这种客观性知识是自下而上的线索[1],即使在培训中未曾见过的新的类,也可以在不同的类之间共享。 这促使我们使用现有训练有素的检测器作为新颖类的目标区域估计器。

给定现有检测器估计出的物体区域,我们需要一个区域分类器将区域分类为相应的类别。 尽管我们具有Web图像的固有图像级别标签,但我们观察到生成的区域可能是背景区域,甚至是与Web图像标签不一致的对象。 如图3所示,区域可以是不包含对象或无关对象的背景补丁。 为了解决这个问题,我们提出了一种自上而下的类别注意力模型,其方法是将学习重点放在所需class的相关区域上,并压制不相关的班级。 具体来说,我们使用[38]中的方法生成注意力权重,并为每个估计区域引入注意力分类损失。 为此,将自下而上的对象区域估计器的对象区域与自上而下的注意力分类损失结合起来,我们能够在新颖的类上训练端到端的网络监督对象检测器。

另外,由于新颖类检测器是使用Web图像训练的,因此我们需要将目标数据调整到Web域,以便将其用于目标新颖类。 关于域不匹配问题,一种常见的做法是混淆源域和目标域的特征。 但是,通常存在潜在的风险,即以非特定于类的方式混淆特征,并且对于域和类而言,特征都变得难以区分。 因此,我们使用固定的检测分类器,仅细化具有特定于类别任务的损失的特征学习器。 在微调特征学习者的同时,我们提出了一个残差块来稳定训练并减少对新颖类的影响,这些新颖类仅在适应性强的源域中可用。

方法

我们为目标域中的新颖类提出了一种Webly监督对象检测(WebSOD)方法,该方法仅需要带有边界框注释的目标域基本类图像以及基础类和小说类的Web图像,而无需任何其他注释。 首先,我们使用目标域图像训练基类对象检测器,作为网络图像的自底向上对象区域估计器,以估计类似于包含新颖对象的对象区域。 随着自上而下的注意分类损失,我们然后针对基础类和新颖类在网络图像上训练了端到端的网络监督对象检测器。 此外,我们提出了残差特征细化(RFR)块来细化跨越两个域的特征表示。 我们在图2中显示了总体流程

Object Detector as Object Region Estimator

我们利用两阶段检测框架FasterRCNN [16],并训练一个带有目标域基类图像及其边界框注释的基本检测器。 使用该基类检测器,我们可以从与基类对象共享的,自下而上的常见视觉特征中定位一些看不见的对象,尽管其可信度相对较低。 例如,“狗”检测器很可能会以低置信度将看不见的“猫”检测为“狗”。 因此,在目标域的基类上具有完全监督的检测器且具有丰富的地面真相的情况下,我们将训练有素的检测器直接应用于Web图像,并生成具有比背景更高的客观性的类不可知区域框。 如图3所示,我们能够为Web图像的基础类和新颖类获取具有精确对象定位的高质量区域框。 例如,即使未对基础检测器进行任何鸟类图像训练,它仍然能够在图像中捕获鸟类。 总体而言,基本探测器通过其常识性捕获几乎所有感兴趣的物体

Attentive Classification Loss

为此,我们在网络图像上获得了一些具有高度客观性的稀疏对象区域框。 理想情况下,由于Web图像通常是简单的单对象图像,因此我们可以将Web图像标签传播为每个框的标签。 然后,我们可以使用估计的框在网络图像上针对基础类和新颖类训练Faster RCNN。 但是,可以观察到,估计框可能包括背景色块以及与图像标签不一致的各种类别的对象。 在训练过程中,如果这些无关的框都被认为与图像标签属于同一类别,则可能会使检测器感到困惑。 因此,需要有一种自上而下的机制,能够在这些正确的box上进行选择性和专心的学习。 因此,我们为侦听器训练提出了一个具有特定分类注意力的模块,该模块具有注意的分类损失,以区分感兴趣的盒子和无关的盒子,并减少标记错误的实例的影响。

为了在图像上产生特定于类别的注意力,我们通过添加图像分类分支来使用类别激活图(CAM)。 具体来说,如图4所示,我们在特征图上的“ Conv层”(CAM Conv)和一个全局池化层之后添加一个卷积层,以获取整个图像的特征表示。 然后,我们使用一个全连接层作为图像分类器,具有交叉熵分类损失。 最后,如[38]中所提出的,我们计算卷积层特征图的加权组合以获得类激活图

我们将Mc定义为c类的类激活图,如下所示:

fk(x,y)表示在空间位置(x,y)处的CAM卷积层之后的第k个特征图,而wc k表示对应于特征图k类c的线性层中的权重。 另外,我们在类激活图上应用特定于类的softmax。 然后,我们在类激活图Mc(x,y)上为每个RoI应用1×1 RoI池,以获得注意力得分Wi RoI。 然后,我们将每个RoI的归一化为

最后,我们将归一化的注意力得分Wˆ i RoI乘以每个RoI的分类损失Lcls,作为注意力分类损失(ACL):

总损失函数可以写成:

在此,i是迷你批次中RoI的指数,而pi是具有真实标签p ∗ i的RoI(如果为true,则为1,否则为0)的预测概率。 ti是代表预测边界框的4个参数化坐标的向量,而t ∗ i是与RoI相关联的groundtruth框的参数化坐标。 Lcls是对数损失。 对于回归损失,我们使用Lreg(ti,t ∗ i)= R(ti − t ∗ i),其中R是在[8]中定义的平滑L1损失。 在图4中,cls和reg层的输出对应的是pi和ti。lambda是权衡系数。

对于CAM图像分类损失LIcls,我们使用交叉熵损失。 请注意,我们将图像级别“标签”用作基本事实,并同时通过检测训练该图像分类分支。 通

过提出的针对带有噪点框的Web图像进行训练所引起的注意性损失,我们能够获得可靠的Web检测器,该检测器可以检测Web图像的基础类和新颖类。

Residual Feature Refinement

由于我们针对网络域的新型检测器仅使用看不见类别的网络图像进行训练,因此由于域不匹配,它可能无法很好地概括为目标域中看不见的类别(例如Pascal VOC图像)。 为了更有效地转移网络检测器(新的+基类)以检测目标域中的新颖对象,我们通过调整目标特征以适应训练有素的网络检测器来完善特征表示模型。 特别是,我们修复了最终的Web检测层(Bbox Cls和Reg层),并通过联合训练Web和目标数据来微调特征提取层。 通过这种改进,我们希望加强功能网络以学习跨不同领域的通用功能演示。

但是,我们发现,当我们从目标数据集中(基类)添加其他图像时,通过修复Web检测层进行的特征微调会产生不稳定的结果。 来自不同域的图像训练可能会影响原始源域中的检测。 因此,我们建议使用残差细化(RFR)块来保持训练有素的Web检测器的微小变化。 特别是,我们精心设计了一个轻量级的残差细化块,如图5所示,它由三个卷积层和两个ReLU层组成。 通过残差块,目标域特征将转换为:

 ⊕分别表示每个像素的逐元素乘法和逐元素总和,F是原始特征,T是生成的残差特征。

对于RFR训练,我们首先像前面提到的那样在Web域中训练带有注意分类损失(ACL)的对象检测器。 其次,我们修复对象检测器的所有层,并在RoI特征之后添加RFR块。 然后,我们迭代地从目标域和Web域中馈入图像以训练残差模型。 馈入Web图像时使用ACL,而馈入目标域图像时使用与Faster-RCNN相同的损失。 请注意,我们仅使用在目标域中包含基本类别的图像。 通过实验,我们发现特征细化模型能够被推广到目标领域中的新型类,即使它们不参与特征细化学习。




上一篇:
下一篇:

头像

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注