guodong's blog

PhD@zhejiang university
   

论文阅读:WSOD2: Learning Bottom-up and Top-down Objectness Distillation for Weakly-supervised Object Detection

摘要: 先前主要著作将区域提议机制与卷积神经网络(CNN)集成在一起。 尽管CNN擅长提取判别性局部特征,但要衡量包含完整对象(即“对象”)的边界框的可能性仍然存在巨大挑战。 在本文中,我们通过设计用于弱监督目标检测的量身定制的训练机制,提出了一种具有目标蒸馏的新型WSOD框架(即WSOD2)。 通过结合使用自适应线性组合从低水平测量和CNN置信度中共同考虑自下而上(BU)和自上而下(TD)的对象,可以特别确定多个回归目标。 由于边界框回归可以促进区域提案在训练过程中以较高的目标性接近其回归目标,因此可以通过优化从自下而上的证据中学到的深层物体表示逐渐提炼为CNN。 我们针对BU / TD对象探索了不同的自适应训练曲线,并表明所提出的WSOD2可以达到最新的结果。

以前的大多数工作都采用多实例学习方法将WSOD转换为多标签分类问题。 稍后,提出了在线实例分类器细化(OICR)[29]和提案聚类学习(PCL),以通过明确分配实例标签来学习更多区分性实例分类器。OICR和PCL都采用将初始目标检测器的输出用作伪标签的想法,这已显示出在改善WSOD的分类能力方面的优势。但是,分类模型通常旨在检测类别中对象的存在,而无法预测图像中对象的位置,大小和数量。 这种弱点通常导致检测到部分或过大的边界框。OICR和PCL的性能在很大程度上依赖于初始目标检测结果的准确性,这限制了大范围的进一步改进。此外,他们忽略了学习边界框的回归。C-WSL将边界框回归器集成到OICR框架中以减少定位错误,但是,它依赖于贪婪的地面事实选择策略,该策略需要额外的计数注释。

现有的依赖于初始的弱监督目标检测结果的工作试图通过卷积神经网络(CNN)从特征图中学习目标边界。 尽管CNN是专家,可以以自上而下的方式学习带有图像级别标签的对象的辨别局部特征(在本工作中,我们将其称为“自上而下的分类器”),但在检测是否存在边界框包含一个完整的对象,没有用于监视的基本事实。 一些基于低级特征的对象证据(例如 彩色对比度和跨越的超像素已被提出来测量通用对象,该对象以自下而上的方式量化边界框包含任何类对象的可能性。受这些自下而上的物体证据的启发,在这项工作中,我们探索利用其优势来提高CNN模型捕获图像中物体的能力。 我们建议将这些自下而上的证据整合到一个网络中,这些证据善于发现边界和具有强大表示能力的CNN。

我们提出了一种带有对象蒸馏(WSOD2)的WSOD框架,以一种新颖的训练机制来利用自下而上的对象证据和自上而下的分类输出。 首先,给定具有数千个区域建议的输入图像(例如,由选择性搜索生成),我们学习了几个实例分类器来预测每个区域建议的分类概率。 这些分类器中的每一个都可以帮助选择多个高可信度边界框作为可能的对象实例(即,伪分类和边界框回归基本事实)。 其次,我们结合了边界框回归器来微调每个提案的位置和大小。 第三,由于每个边界框无法仅靠CNN特征来捕获精确的对象边界,因此我们采用自适应线性组合方式将自下而上的对象证据与自上而下的CNN置信度得分相结合,以测量每个候选边界框的客观性, 并为每个区域提案分配标签,以训练分类器和回归器。

对于CNN偏爱的一些区分性小边界框,自下而上的目标证据(例如,跨过的超像素)往往非常低。 WSOD2可以调节伪标签,以同时满足较高的CNN置信度和底层对象完整性。 此外,集成了边界框回归器以减少定位误差,并在训练过程中同时增强自下而上的目标证据的效果。 我们设计了一种自适应训练策略,以使指导逐渐被提炼,从而使CNN模型可以被足够强大地训练,以在模型收敛时代表对象的区分性局部信息和边界信息。

Based Multiple Instance Detector

和之前所有的多实例检测器相同,输入一张图片,首先通过Selective Search来生成提议框R,然后使用CNN骨架提取区域特征x,接着通过ROI pooling和两个全连接层。

区域特征x随后被送进2个支路,即两个全连接层,两个生成的特征矩阵被标记为,其中c表示类别数目,|R|表示提议数量。随后这俩特征矩阵使用两个公式:

然后对这两个数值进行点积运算,整合整个区域维度来获得图像级别的分数向量,

这样,我们可以利用图像级分类标签作为监督,并应用二进制交叉熵损失来优化基本检测器。 基本损失函数表示为:

戴帽子的变量表示(伪)真值标签,当图片包含c类别时,其值为1,否则为0.预测分数被认为是初始的检测分数,但是不够精确,需要进一步被提炼。

Bottom-up and Top-Down Objectness

受OICR启发,作者在X的top上构建了K个实例分类器,将第k个分类器的输出作为第k+1个分类器的监督,并利用自下而上的对象证据来指导网络训练。因此,对于第k个分类器,我们定义提炼损失函数:

其中p(r,k)表示第r个提议的(C+1)维度输出类别概率。戴帽子的p表示它的one-hot真值标签。

是一个标准交叉熵损失。由于实际实例级别的GT标签不可用,因此我们使用在线策略在训练循环中动态选择每个建议的伪地面真相标签,这将在第3.4节中进一步说明。w表示权重。具体来说,首先提取自底而上的r的evidence,记作,第k个分类器生成的类别分数记作,权重是通过下面的线性组合:

其中关于这三项,具体的说明:

Bottom-up object evidence :在本文中,我们主要采用超像素跨度(SS)作为自下而上的证据,我们还将探索其他三个证据:textbf多尺度显着性(MS),色彩对比度(CC)和边缘密度(ED)

Top-down Class Confidence:我们根据先前分支的输出来计算当前分支的自顶向下置信度。

其中,p(k-1,rc)表示上个分类器的概率输出,因为p戴帽是one-hot向量,因此p(k-1)中只有一个值会被pick来计算。

Impact Factor α:α是平衡自下而上的物体证据和自上而下的类别置信度效果的影响因子,这是通过某些权重衰减函数计算得出的。 这样的设计使边界知识能够被提炼到CNN中。

由于自下而上的对象证据和自上而下的类信任度可以从边界和语义信息的角度衡量盒子包含对象的可能性,因此我们将这两种表示形式分别视为自下而上和自上而下的对象。

Bounding Box Regression

自下而上的物体证据能够发现物体边界,因此我们探索如何使其能够指导训练期间更新的预先计算的边界框。 一个直观的想法是集成边界框回归以完善建议的位置和大小。

边界框回归是典型的全监督目标检测器中必不可少的组成部分,因为它能够减少定位误差。尽管在弱监督的对象检测中没有边界框注释,但是一些现有的工作[9,28,30,38]显示,在线或离线挖掘伪地面实况并对其进行回归可以大大提高性能。受此想法启发,我们在x的顶部集成了边界框回归器,并使其可以在线更新。回归器的公式与Fast R-CNN中的公式相同:

trˆ表示回归参考。 Rpos表示正(非背景)区域。 smoothL1函数与[25]中定义的函数相同。 wK r表示最后一个分类分支计算的回归损失权重。通过wkr来计算伪标签回归参考r

其中M是正样本挖掘函数,,而Tiou是特定的IoU阈值。 上式子使每个正区域样本能够接近具有较高目标的盒子。

我们采用边界框回归来增加训练期间的框预测。

这里r’是r偏移tr后得到。 我们保留Ok td(r)不变,因为Ok td包含RoI特征扭曲操作,该操作会受到边界框预测的影响。在此新公式中,提案的本地化是在线更新的。更新后的框可能会达到更高的客观性,这意味着更精确,更完整的回归目标更有可能被选择。

Objectness Distillation

其中外部知识来自自下而上和自上而下的客观性。 在其中,α是权衡各个知识的权重。 在训练开始时,自上而下的分类器不够可靠,因此我们预计自下而上的证据将在组合中占主导地位,在自下而上证据的指导下,该网络将尝试调整自上而下分类器的置信度分布,以遵守自下而上的证据。 我们称此过程为Objectness Distillation 。

随着训练的进行,Otd的可靠性增加,Otd继承了Obu的边界决策能力,同时由于分类监督仍保持了语义理解能力。 因此,α可以逐渐将注意力从自下而上的物体证据转移到自上而下的CNN置信度具体而言,通过一些权重衰减函数来计算α。 我们调查了几个权重衰减函数,包括多项式,余弦和常数函数。

除了α,为了进行Objectness Distillation,我们还需要确定pkr。 我们希望利用自下而上的证据来增强边界表示,同时保持语义识别能力,因此,我们利用了分类器先前分支的输出来挖掘正的提议。

给定一个k-1分类器的输出,通过下面4步骤来挖掘伪标签:

  1. 我们基于每个建议r的类别概率pk-1 r,使用预先定义的阈值Tnms在R上应用非最大抑制(NMS)。 我们将保存的盒子表示为Rkeep。
  2. 对于每个类别c(c> 0),如果ˆφc = 1,我们从Rkeep寻找所有类别对类别c的置信度大于另一个预定义阈值Tconf的框,并为这些框分配类别标签c。 特别是,如果未选择任何框,我们将寻找得分最高的框。 所有搜寻框的集合表示为Rseek。
  3. 对于Rseek中的每个种子框,我们在R中查找其所有相邻框。在这里,如果它们的联合交集(IoU)大于阈值Tiou,则认为一个框是另一个框的邻居。 我们将所有邻居框的集合表示为“邻居”。 将为所有邻居框分配与其种子框相同的类标签。 其他非种子和非邻居框将被视为背景。 我们将分配的标签转换为一个one-hot向量以获得所有ˆpk r。
  4. 最后,我们将Rseek和Rneighbor的并集作为正样本区域:Rpos = Rseek∪Rneighbor

这样,接近正样本的区域将被分配相同的类别标签,而具有高客观性的样品将获得较高的权重。 这样的信息将通过优化被提取到CNN中,因此CNN将逐渐增加发现对象边界的能力。




上一篇:
下一篇:

头像

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注