guodong's blog

PhD@zhejiang university
   

论文阅读: Rethinking the Route Towards Weakly Supervised Object Localization (cvpr2020)

摘要: 弱监督目标定位(WSOL)旨在仅使用图像级标签来定位目标。 先前的方法经常尝试利用特征图和分类权重来间接使用图像级注释来定位对象。 在本文中,我们证明了弱监督的目标定位应该分为两部分:与类无关的目标定位对象分类。 对于与类无关的对象定位,我们应该使用与类无关的方法来生成嘈杂的伪注释,然后在没有类标签的情况下对其进行边界框回归。 我们提出了伪监督对象定位(PSOL)方法作为解决WSOL的​​新方法。 我们的PSOL模型在不同数据集之间具有良好的可传递性,而无需进行微调。 使用生成的伪边界框,我们在ImageNet上实现了58.00%的本地化精度,在CUB-200上实现了74.97%的本地化精度,这比以前的模型有很大优势。

WSOD和WSOL的区别,前者要确定目标位置的同时,还要确定类别,而后者基于一种假设是,图片只有一个特定的目标。

总体算法流程:

接下来,一一介绍每一步。

Bounding Box Generation

WSOL methods:现有的WSOL方法通常遵循此管线来生成图像的边界框。 首先将图像I馈入网络F,然后生成最终特征图(通常是最后卷积层的输出)其中,h,w,d分别是最终特征图的高,宽和通道。然后通过全局平均池化和最终的全连接层,生成L_pred。通过预测的标签L_pred和ground truth L_gt,最终得到,在全连接层内和类别有关的权重然后G的每个空间位置通过通道加权求和,得到每个类别的最终的热图H,最终,通过对H上采样到原始图片大小和一些阈值,来生成最终的bounding box。

DDT recap.一些共同监督的方法在定位任务上也可以具有良好的性能。 在这些协同监督的方法中,DDT具有良好的性能,并且对计算资源的需求很少。 因此,我们以DDT 为例。 这是DDT的简要概括,给定一组具有n个图像的图像S,其中每个图像I∈S具有相同的标签,或在图像中包含相同的对象。 对于预训练的模型F,还将生成最终特征图:G∈R^h×w×d = R^hw×d = F(I)。 然后将这些特征图收集到一个较大的特征集中:G_all∈R^n×hw×d = R^nhw×d。 沿深度方向应用主成分分析(PCA)。 在PCA过程之后,我们可以获得具有最大特征值的特征向量P。 然后,对G的每个空间位置进行通道加权并求和以获得最终的热图H:.然后,将H上采样到原始输入大小。 零阈值法和最大连通分量分析法用于生成最终边界框。

我们将使用WSOL方法和DDT方法生成伪边界框,并评估其适用性。

Localization Methods

生成边界框后,每个训练图像都有(伪)边界框注释。 然后自然要用这些生成框执行目标定位。 如前所示,检测模型太重,无法处理此任务。 因此,执行包围盒回归是很自然的。 先前的完全受监督的工作[18,17]提出了两种边界框回归方法:单类回归(SCR)和每类回归(PCR)。 PCR与类别标签密切相关。 由于我们主张定位化是与类无关的,而不是与类有关的任务,因此我们在所有实验中均选择SCR。

我们遵循先前的工作来执行边界框回归[18]。 假设边界框采用x,y,w,h格式,其中x,y是边界框的左上角坐标,而w,h分别是边界框的宽度和高度。 我们首先将x,y,w,h转换为x ∗,y ∗,w ∗,h ∗,其中x ∗ = x /wi,y ∗ = y/ hi,w ∗ = w/ wi,h ∗ = h/ hi,并且wi和 hi分别是输入图像的宽度和高度。 我们使用具有两个完全连接的层和相应的ReLU层的子网进行回归。 最后,输出被S形激活。 对于回归任务,我们使用均方误差损失(L2损失)。




上一篇:
下一篇:

头像

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注