guodong's blog

PhD@zhejiang university
   

论文阅读:Cap2Det: Learning to Amplify Weak Caption Supervision for Object Detection(iccv2019)

摘要:学习定位目标实例并命名实例是视觉中的一个基本问题,但是最新的方法依赖昂贵的边框监督。 虽然弱监督检测(WSOD)方法使对图像级别注释的框的需求放宽了,但是自然也可以以用户可以在上载图像内容时自由提供的非结构化文本描述的形式提供更便宜的监督。但是,将此类数据用于WSOD的直接方法,严重的丢弃了与对象名称不完全匹配的注释。相反,我们展示了如何通过训练通常会超出数据集边界的纯文本分类器来从这些注释中挤出最多的信息。 我们的发现为从嘈杂但更丰富且可自由使用的标注数据中学习检测模型提供了机会。 我们还在三个经典的对象检测基准上验证了我们的模型,并实现了最新的WSOD性能。(这个captain data里的captain是“注释”的意思,涨姿势了

动机:

一个训练好的检测器,在一个新颖的域使用时,效果会差,因为存在域偏移和不成熟的域适应技术。弱监督对象检测(WSOD)技术旨在减轻收集此类昂贵框注释的负担。经典的WSOD问题公式将图像提取为一包候选框,并学会使用多实例学习(MIL)将实例级语义分配给这些提议框。但是,WSOD中的一个关键假设是图像级标签应该精确,这表明图像中至少有一个提案实例需要与标签关联。 这种假设并不总是适用,尤其是对于现实世界的问题和现实世界的监督。

作者以YouTube,Instagram举例:网络用户在将照片上传到社交媒体网站(例如YouTube或Instagram)时提供的自然语言描述的形式。 每天有数以千万计的照片上传到Instagram,其中大多数带有标题,标签或描述。 YouTube上也有大量带有字幕的视频。但是,现有的WSOD方法不能使用这种监督。 首先,这些自然语言描述是非结构化的; 它们需要被解析,并且与对象识别相关的单词需要被提取,而非对象单词则被删除。 其次,这些描述既不精确也不穷尽-它们可能会提及图像中未包含的内容(例如,用户正在参加的活动或在拍摄照片后遇到的人),并且还忽略了实际上是在图像中,但不有趣。 考虑图1右下角的图像。它包含许多对象,其中许多对象相当大,例如, 餐桌和碗-但是提供描述的人员没有提及这些物品。因此,直接将Web数据馈送到最新的WSOD系统存在许多限制-至少,它没有充分利用标注可以提供的丰富监控功能。

为了解决这个问题,我们根据图像和附带的字幕(句子)构建对象检测器。 我们的模型将人类书写的自由格式文本和视觉目标联系在一起,并在图像中的目标上生成准确的边界框。 我们的方法依赖于两个关键组件。 首先,我们训练文本分类器将标题映射到离散的对象标签。 该分类器不依赖于数据集,仅需要一小组标签,并且可以超出数据集边界进行归纳。 它使我们能够弥合人类在字幕中提到的内容与图像中真正存在的内容之间的差距。 其次,我们使用该文本分类器预测的伪真值标签来训练弱监督的对象检测方法。 我们提出的方法是现成的提取区域提案,然后针对每个提案和每个类别,学习类别得分和检测得分。 然后使用迭代方法完善这些分数,以产生最终的检测结果。

方法

考虑下面三个句子:
“a person is riding a bicycle on the side ofa bridge.”
“a man is crossing the street with his bike.”
“a bicyclist peddling down a busy city street.”
但是,只有第一句话与“person”和“bicycle”类别完全匹配。 即使我们允许使用“ man”和“ person”或“ bicycle”和“ bike”的同义词,也只有前两个精确地描述了两个对象,而最后一个仍然无意中遗漏了“ bicycle”的实例。

当使用这些示例训练目标检测器时,前两个实例可能会带来积极的影响,但最后一个实例将被误丢弃为负样本,即与“人”或“自行车”类别无关。 更糟的情况如图1所示,没有出现过“bowls”和“spoons”的句子,仅仅一些提到“oven”。

这种观察激励我们放大注释提供的监督信号,并从中提取更多信息。 图2(底部)显示了我们用来放大信号的方法。 这种纯文本模型将自由格式的文本作为输入,使用GloVe [24]将单个单词嵌入到300D空间中,并将嵌入的特征投影到400D潜在空间中。 然后,我们使用最大池来汇总单词级表示形式。 然后,我们使用这种中间表示来预测隐含实例(例如,COCO中定义的80个类别,或任何其他类别); 该预测可以回答“图像中的内容”,并在训练对象检测器中充当伪图像级标签

值得注意的是,在使用伪标签训练目标检测器时存在一种微妙的平衡。不可否认,我们的策略提高了召回率,因此可以利用更多的数据。然而,随着召回率的提高,准确率不可避免地会下降,从而威胁到MIL的基本假设。具体地说,精确的标签假设使得模型对假正样本非常敏感:当给出的标签不恰当,而没有一个正确的响应时,模型就会变得混乱,导致非最优检测。

最后,我们采用了一个分两步进行的过程:首先,遵循明确提到的对象在图像中应该足够显著和明显的直觉,从字幕中寻找对象标签的精确匹配;第二,当没有目标匹配时,使用我们的标签推理模型预测标签为未说出的有意对象,以指导目标检测。我们证明了我们的方法比几个同样推断伪标签的强替换方法性能更好。

Detection from inferred labels

如图2所示,我们首先提取具有伴随特征的proposals。 图像被馈送到预训练的(在ImageNet [9]上)的卷积层中。 然后,将ROIAlign [13]用于裁剪由选择性搜索[35]生成的建议框(每个图像最多500个框),从而生成固定大小的卷积特征图。 最后,使用框特征提取器对每个候选区域提取固定长度的特征。请注意,虽然我们的模型在ImageNet上进行了预训练,但它完全不利用我们训练和评估检测模型的数据集上的任何图像标签

Weakly supervised detection

上一步提到固定长度的特征随后输入两个平行的分支,分别为detection scores ,classification scores,这两个score都和类别和particular proposal有关。随后将这两个分数转化成,目标c在候选区域r内的概率(通过一个激活函数)以及候选框r在图片级别标签的重要程度(通过softmax)。最后通过公式3来计算似然概率,数值越大,说明c越可能存在图片中。

Online instance classifier refinement

WSOD模型的第三部分是Tang等人提出的在线实例分类器细化(OICR)[31]。 OICR背后的主要思想很简单:给定一个基本的类别标签,选择得分最高的proposal以及与其高度重叠的proposal作为参考。 这些proposals被视为训练此类分类器的正样本,而其他则被视为负样本。 最初的得分最高的proposal可能只部分覆盖了该目标,因此允许将高度重叠的proposal作为第二个机会被认为包含这个目标。这减少了传播错误预测的机会。 此外,在原始模型和优化模型之间共享卷积特征使训练更加可靠。

与原始OICR不同,我们的WSOD模块汇总了logit而不是概率分数,这在我们的经验中稳定了训练。 我们还删除了[31]中强调的不可信信号的重新称重,因为我们发现它并没有显着贡献。




上一篇:
下一篇:

头像

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注