guodong's blog

PhD@zhejiang university
   

论文阅读:Activity Driven Weakly Supervised Object Detection cvpr2019

摘要: 监督不足的对象检测旨在减少训练检测模型所需的监督量。传统上,此类模型是从仅标有对象类而不是对象边界框的图像/视频中学习的。 在我们的工作中,我们不仅尝试利用对象类标签,而且还利用与数据关联的动作标签。 我们表明,图像/视频中描述的动作可以提供有关关联对象位置的强烈提示。 我们根据动作来学习物体的空间先验(例如,“踢球”中“球”更接近“人的腿”),并在同时训练联合物体检测和动作分类模型之前将其合并 。 我们在视频数据集和图像数据集上都进行了实验,以评估弱监督目标检测模型的性能。 我们的方法在Charades视频数据集的mAP中比当前最先进的(SOTA)方法高出6%以上

 

具体来说,我们有三个观察结果(见图1):(1)动作中提到的人的位置与物体的位置之间存在空间依赖性,例如在动作“握住杯子”中,杯子的位置与 手的位置。 这可以为该对象提供强大的先验; (2)在涉及对象的动作类的图像和视频中,对象的外观是连续的; (3)检测物体应有助于预测动作,反之亦然。

上述观察结果可用于解决弱监督检测的主要挑战之一:在训练过程中存在用于对象边界框的大型搜索空间。 每个训练图像/视频都有许多候选对象边界框(对象建议)。 我们唯一的标签是,这些候选人中的一个应与行动中提到的对象相对应。 需要训练算法来从大量候选对象中自动识别正确的对象边界框。 在我们的方法中,我们通过将三个观察值合并到模型中来缩小搜索范围。 特别地,我们(1)显式地学习物体的空间先验,关于人类采取不同的行动; (2)训练通用对目标分类器,以跨不同动作对对象外观进行建模; (3)共同学习动作分类器和关联对象分类。

我们对两个视频数据集进行了综合实验:Charades [36],EPIC KITCHENS [6]和图像数据集:HICO-DET [4]。 我们的方法在所有数据集上都大大优于以前的方法[2,50,40]。 具体来说,与目前最先进的视频监控系统相比,我们将Charades的mAP提高了6%。 可视化结果和消除实验显示了我们方法中每个模块的有效性

我们的框架图。 提议的框架中包含三个流:对象空间先验模块(蓝色),对象分类流(黄色)和动作分类模块(绿色)。 我们将人类关键点检测纳入框架,并共同利用动作和对象标签。

略读,没什么好进一步说的




上一篇:
下一篇:

头像

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注