内容纲要

摘要:弱监督对象定位(WSOL)技术仅使用图像级标签来学习对象位置,而没有位置注释。 这些技术的一个共同限制是它们仅覆盖对象中最有区别的部分,而不能覆盖整个对象。 为了解决这个问题,我们提出了一种基于注意力的辍学层(ADL),该层利用自我注意力机制来处理模型的特征图。 所提出的方法包括两个关键部分:1)从模型中隐藏最有区别的部分,以捕获对象的整体范围; 2)突出显示信息区域,以提高模型的识别能力。 在大量实验的基础上,我们证明了该方法可有效提高WSOL的​​准确性,并在CUB-200-2011数据集中实现了最新的定位精度。 我们还表明,在参数和计算开销方面,所提出的方法比现有技术要有效得多。

具体来说,通过对输入特征图执行按通道平均池化,可以获取一个自我注意图。 基于自我注意图,我们生成了ADL的两个关键组件,即一个drop mask和一个importance map。drop mask用于在训练期间隐藏最有区别的部分。 这也促使模型学习区别程度较小的部分。 我们通过对自我注意图进行阈值化来获得此drop mask重要性图用于突出显示信息区域,以提高模型的分类能力。 由于重要性图,可以产生更准确的自我注意图。 重要性图是通过将sigmoid激活自我注意图来计算的。 在训练过程中,在每次迭代中都会随机选择drop mask或importance map中的一个,然后通过空间乘法将所选的一个应用于输入特征图。 图1显示了方法的框图。

与现有的WSOL技术相比,该方法在计算和参数开销方面都更加有效。 这是因为我们可以通过在单个模型中进行一次向前-向后传播来找到并删除最具区别性的区域。 此外,无论模型的体系结构如何,ADL都可以轻松应用于模型的卷积特征图,以提高定位精度。 与现有的自我注意技术相比[46,12,26,53],该方法非常轻巧,因为没有其他可训练的参数来提取自我注意图。

drop mask就是说,对于最有区别的区域,drop mask具有0,否则具有1。 注意,随着γ的减小,待drop mask的大小会增加,反之亦然。 通过空间上的相乘将dropout应用于输入要素图。 这样,我们可以从模型中隐藏最有区别的部分。 我们鼓励模型学习较少区分的部分进行分类,但对本地化有意义的区域。 但是,如果在每次迭代中都应用drop mask,则在训练阶段就不会观察到最有区别的部分。 结果,模型的分类精度显着降低,这对定位精度产生了不利影响。 为了解决这个问题,我们根据drop_rate随机应用了drop mask。 如果未应用drop mask,则会应用重要性图。重要性图 对于重要性最高的区域,重要性图中的每个像素的强度接近于1,而对于区别较小的区域,强度接近于0。 像滴罩一样,重要性图通过空间倍增应用于输入特征图。 这样,可以提高模型的分类精度。

ADL是一个辅助模块,仅在训练期间应用。 在测试阶段,将停用ADL。

论文还是比较简单的。

最后修改日期: 2020年3月31日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。