guodong's blog

PhD@zhejiang university
   

论文阅读:Object-Aware Instance Labeling for Weakly Supervised Object Detection iccv2019

摘要:弱监督目标检测(WSOD)受到越来越多的关注,其中仅对检测器进行图像级注释训练。 作为获得性能良好的检测器的一种方法,检测器和实例标签将进行迭代更新。 在本研究中,为了更有效地进行迭代更新,我们将重点放在实例标记问题上,该问题应该根据最后的定位结果在每个区域标注哪个标记。 除了简单地将得分最高的区域及其高度重叠的区域标记为正,其他区域标记为负之外,我们提出了如下更有效的实例标记方法。 首先,为了解决仅覆盖对象一部分的区域趋于被标记为正的问题,我们发现覆盖整个对象的区域着重于上下文分类损失。 其次,考虑到图像中包含的其他对象可以被标记为负的情况,我们对标记为负的区域施加了空间限制。 使用这些实例标记方法,我们在PASCAL VOC 2007和2012上对检测器进行了训练,与其他最新方法相比,可以获得显着改善的结果。

我们将重点放在实例标记问题上,该问题应根据最后的定位结果在每个区域标注哪个标签。 最先进的方法之一[20]所采用的实例标记方法相当简单。 最自信的区域及其高度重叠的区域被标记为正,其他区域则被标记为负或背景。 为了更有效地进行实例标记,我们提出了两种方法:上下文感知肯定(CAP)标记和空间限制否定(SRN)标记。 CAP标签旨在解决可能会检测到对象中最具区分性的部分(例如,人类中的面孔)而不是整个对象的问题。 我们发现,区域上下文(即区域外部)的分类损失取决于区域是否覆盖整个对象。 利用这一特征,我们用覆盖整个物体的区域代替了不完整的检测区域。 除了CAP标记外,我们还开发了SRN标记以考虑负面标记。 也就是说,应该将哪个区域注释为背景。 当一个图像具有多个相同类别的对象时,即使一个对象被标记为正,其他对象也可以被标记为负。 SRN标记通过在负标记上施加空间限制来解决此问题。

WSOD的目标是训练仅带有图像级注释的检测器。 作为获得性能良好的检测器的一种典型方法,检测器和实例标签都会迭代更新。 为了迭代地训练检测器,我们必须解决一个问题,即应根据最后的定位结果在每个区域标注哪个标签。 在这项研究中,我们专注于这个问题。 即实例标记问题。

CAP Labeling

在某些先前的方法[1,12]中,使用遮罩策略来查找整个对象。 如果某个区域的掩盖图像降低了分类置信度,则可以认为该区域是可区分的。 但是,我们通过实验发现,仅覆盖对象某些部分的区域进行的遮罩会降低分类的置信度。 这种掩盖方法不适用于发现覆盖整个对象的区域。

为了判断一个区域是否覆盖了整个物体,我们着眼于田中等人的研究[19],他处理带有噪声标签的分类问题,其中用噪声标签图像训练分类器。 此处,带有噪声标记的图像表示标记错误的图像(例如,标记为猫的狗图像)。当对分类器进行带噪标签图像的训练时,根据数据是带噪数据还是纯数据,训练损失会有所不同。 对于干净的图像,损耗趋于减小,而对于带有噪声的标记图像,损耗则难以减小。

我们发现该特征可以用来判断一个区域是否覆盖了整个对象。 我们关注的不是区域内部,而是区域外部。 我们称该区域的外部为该区域的背景。 以包含猫的图像为例; 当区域覆盖整个猫时,在该区域的上下文中不存在猫。 另一方面,当一个区域不能覆盖整个猫时,猫的某些部分就在上下文中。 如果我们将所有区域的上下文标记为猫,则这些图像都是嘈杂的图像:当一个区域覆盖整个猫时,该区域的上下文会很嘈杂,否则会变得干净。 通过使用此数据训练分类器,分类损失会根据区域是否覆盖整个猫而有所不同。

作为一种基于上下文训练分类器的简单方法,在将图像输入到CNN中之前,将区域内部填充平均像素值。 但是,此方法需要每个区域的CNN转发,并且很耗时。 为了实现较低的计算成本,我们对CNN功能进行了屏蔽。 对应于区域内部的CNN要素填充了零值。 然后,将掩膜后的特征与全局平均池(GAP)合并,并输入到完全连接(FC)的层。

假设带有CNN特征掩盖的分类器的输出为p∈RC×J,其中每个元素pcj表示rj上下文的类c的概率。 训练分类器以使图像级标签Y最小化标准的多类交叉熵损失:

如果一个区域覆盖了整个对象,则训练后上下文的训练损失会很高,因为区域的上下文很嘈杂。 换句话说,其类别c包含在图像中(yc = 1)的类别概率pcj很低。 另一方面,如果一个区域不能覆盖整个对象,那么干净的上下文的分类概率就很高。

当我们进行实例标记时,得分最高的区域选自上下文类别概率较低的区域,

即使一个区域覆盖了整个对象,在某些情况下,上下文的训练损失也会减少。 例如,当上下文与对象(例如飞机和天空)紧密相关时,或者图片出现两个或多个对象。为了解决这个问题,我们介绍了Xiao等人的[25]显着性图。 遵循Wei等人以前的WSOD方法。 [24],我们将显着性高于0.06的区域定义为前景,将其他区域作为背景。 当基于等式训练分类器时,在将平均像素值输入到分类器之前,背景区域会填充平均像素值。 当为等式计算类别概率时,我们将前景段划分为每个独立的段,在段和框之间选择IoU最高的前景段,然后用平均像素值填充其他区域。 结果,可以看到框所聚焦的对象,而其他对象则被隐藏。

SRN Labeling

为了解决这个问题,我们提出了SRN标签。 该方法的启发是,在距对象较远的区域可能存在其他对象。 在SRN标记中,我们通过修改Eq中的权重,对训练为背景的区域施加空间限制(6)如下

最初,wk j旨在限制不可靠标签的贡献,例如在培训开始时生成的标签。 SRN标签是其空间版本:我们认为偏远区域的标签不可靠。




上一篇:
下一篇:

头像

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注