内容纲要

这是一篇MM2000的经典论文,内容讲的是关于局部相似度匹配的问题,从全局的角度来计算相似度,和以往的从肚子的区域检索方法相比,全局相似度可以减少不准确的分割的影响。帮助阐明特定区域的语义,并为基于区域的图像检索系统启用简单的查询接口。

Related works

居于内容的图像检索,CBIR,根据提取的方法分成三类: histogram, color layout, and region-based search. 同时还有结合这三者的一些方法。

Histogram search

从颜色分布或者直方图识别图像。全局直方图的缺点是,目标的位置形状和纹理被丢弃。颜色直方图搜索对颜色distort,强度变化和cropping都比较敏感。

Color layout

这个则是减轻直方图搜素的问题。传统的color分布索引是,图像被分成blocks,对每个block的颜色均值加以储存。因此,color分布相当于原图的低分辨率表达。另外还有使用Danbechies’ wavelet coefficients 来代替平均,通过调整block size大小和wavelet变换,可以改变颜色分布的粗细程度。最佳的颜色分布,使用一个单像素block就是表示这张图,这样颜色分布表达可以作为一中直方图的相反表达。载合适的分辨率下,颜色分布表达可以自然的表达shape。location,texture信息。然而,使用像素表达,检索系统不能明确的“see”到。颜色分布搜索对shifit,cropping,scaling和rotation敏感,因为图像是一组局部属性的集合。

Region-based retrieval

这个则尝试克服上述的搜索,通过object-level的表达。使用图像分割把图像分成区域,如果分解理想,这些区域则对应着目标。
这样,系统对不同位置和不同方向和大小的相似目标都能很好的识别。优秀的有Netra system。Blobworld和color region template,我们研究的SIMPLIcity。但是前两者对分割准确率的要求很高,而实际中,分割通常把一个目标分成一些区域,这些区域可能都不具有表达性。

Motivation

很少有方法结合所有区域的信息进行度量。即使有,他们的鲁棒性也不高。

IRM

通过区域表达,为了反映分割更加准确,IRM利用所有的发那个区域,这样最大化利用好图像的信息。区域匹配是一个难题,因为分割不准确:例如分割可能把一个狗分成两部分:狗和背景,但是对于另一张图片,分割可能把狗分成前腿后腿等。

Ovewview

优势:

  1. 使用overall相似度
  2. 大多数情况下,前景和背景是有关系的,比如船经常和水一起出现。
  3. 可以全图检索,也可以局部区域检索。

详解

为了定义相似度度量,我们首先尝试匹配两个图像的区域。需要注意的是,分割可能不准,因此我们“soft”匹配,允许图里的一个区域去匹配另一张图的其他多个区域。region-to-region的匹配的定义是区域和区域之间的相似度较高 。

匹配的准则是,最近的对优先匹配。通过IRM来加强区域之间的合作。区域匹配后,通过加权相似度获取最终的相似度,权重通过一个匹配机制确定。
file
如图所示,节点和节点之间边为相似度,无边的话,可能为同一张图内的节点或者是两张图之间的节点的相似度为0.
最终的距离为:file
其中,就是如何确定s。一个很自然的问题是,s的约束是什么,才能产生好的相似度度量。

  1. 首先,设图1中的区域ri的重要性为pi,设图2中区域r’j的重要性为p’j,我们要求:
    file
    为了归一化,我们使:file
    这确保所有区域扮演一个角色。
    2.相似区域有着最高的先验。例如,如果两个图像相同,可接受的匹配是两图相同的区域。在这个匹配下,两个图片的距离为0. 这种称为MSHP准则,IRM算法尝试对有着小距离的区域赋予很高的重要性。

    • 我们假设i’ j’区域距离为两幅图像的最短距离,此时设置s(i’,j’)=min(pi’,p’j’)。
    • 不失一般性,我们假设pi’ < p’j’,则s(i’,j)=0对于j≠j’,因为i’ j’已经充满了区域i’的重要性。
    • 同时,留给区域j’的重要性减少到p’j’-pi’。
    • 因此,更新匹配问题的约束变成(i≠i’时):
      file
    • 我们应用上述的过程来更新问题,当所有的pi和p‘j都全部赋值时,迭代过程停止。
    • 整个算法的迭代过程:
      file
      file

此时我们的问题在于,如何选择Pi,pi的选择反映了区域i的图像的重要性。如果我们假设每个区域都同等重要,此时pi=1/m,m为区域数量,假设两图有相同的区域,此时,图一的一个区域只能连接图二的一个区域。另一个pi的选择是图像区域的百分比覆盖,重要的目标倾向于得到更大的区域。我们把这种区域的选择认为是区域百分比机制,这种机制对分割的不准确性不敏感。如果一个目标被分成多块,那么统一的机制会不当的产生重要性,但是区域百分比机制仍然保持他的重要性,另一方面,当目标被合成一个区域,这个区域百分比机制赋予相对高的重要性。

另外Pi的赋值还可以考虑区域的位置,例如图像中间的区域往往比周围的区域有着更高的重要性。这样来产生权重wij:file

最周一步骤就是确定距离函数:
作者在这里考虑了三个因素:shape,texture和shape。具体不再赘述。深度学习提取的特征的可解释性很差。
关于距离的定义,不是本文的讨论重点。

最后修改日期:2020年11月1日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。