内容纲要

标题中烤鱼看出,多分辨率的流形距离,对于不变的图像相似度。

论文考虑了图片可能有空间变换,因此使用变化不变的度量–tangent distance TD,将TD嵌入到多分辨率框架中,从而大大减少了局部极小值。新的度量标准-多分辨率切线距离(MRTD-可以很容易地与强大的估计程序结合使用,并且与TD和欧几里得距离(ED)相比,图像变换的不变性要高得多。

论文开头讲对齐的方法:不变特征可以是非常任意的,通常很难评估所丢弃信息对分类错误的影响,学习对要学习的变换的自由度数具有组合复杂性。

此规则的一个例外是在[24]中引入的TD分类器。TD背后的关键思想是,当进行空间变换时,图像会张成高维欧几里德空间中的流形,不变度量应度量这些流形之间的距离,而不是度量(或从中提取的)其他特征之间的距离。
两个流形之间的距离定义为它们最接近点之间的ED。由于这些流形可能具有复杂的形状,因此产生的优化问题通常是一个难题。 但是,可以通过考虑将流形切线空间之间的距离TD(而不是流形自身之间的距离)最小化来使其易于处理。事实证明,在对应于给定图像的点上与流形的切线超平面,是图像强度函数的一阶泰勒级数展开。 这种扩展已在运动分析文献中得到广泛使用([11]以来),众所周知,这种扩展仅在局部保持,即当要对齐的图像之间的ED较小时。
因此,在TD分类器和图像对齐技术之间建立联系可以解释前者的主要局限性:尽管在字符识别问题上产生了令人印象深刻的结果,但由于这些图像通常会受到自然界的影响,因此无法处理好自然图像,因为有更大的图像转换。 在本文中,我们通过将识别表述为分类,将对齐表述为回归来明确连接,并表明TD分类器所基于的特定分类架构(称为最近邻居)实际上将回归问题嵌入了用于分类。 因此,可以将TD分类器视为针对决策函数的每次评估来解决对齐问题。 新的解释允许利用比对文献中获得的知识来提高分类性能。 特别是,我们利用以下事实:通过扩展线性近似的保持范围,多分辨率分解显着提高了基于泰勒级数近似的图像配准算法的性能。 在分类的背景下,这导致了一个将TD的计算嵌入到多分辨率框架中的分类器。我们通过多分辨率切线距离(MRTD)表示新指标,并评估其在人脸识别任务上的性能。这些实验表明,与TD或ED相比,MRTD对图像变换表现出更高的不变性。

主要还是应用图像对齐。
MRTD的优点:
1)保持TD的通用性
2)可以很容易地与鲁棒的估计程序结合,展现出适度的非线性图像变化的不变性(例如那些由形状或遮挡的微小变化引起的变化);
3)适用于计算效率高的筛选技术,在该技术中,低分辨率下的不良匹配将被丢弃;
4)在识别任务上表现出色;
5)可以针对各种问题(例如人脸识别,语义视频分类和马赛克创建)设计单个体系结构。

前面说了那么多,分类器的定义很简单,就是:
file
然后寻找一个函数参数向量p,使得上述的损失函数最小。
主要思想是,分类所基于的距离应该是查询图片的模式所张成的流形与训练集中的流形的距离,而不是模式本身之间的距离。
file
如图所示,两个模式x y的欧式距离,和流形之间的流形距离。

流形:他是把所有的可能的变换,也就是模式,张成流形。

然后定义流形之间的距离为:file

最后修改日期:2020年11月20日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。