内容纲要

域适应

分成普通的域适应和部分域适应
file
普通的预适应是sorce域和目标域的标签完全相同,主要的问题就是域迁移问题。部分的预适应问题认为是目标域的标签空间是源域的子集,可能会有负迁移现象,目标样本可能会对齐到奇异点。

主要考虑两个问题:首先直接利用不确定度信息容易出错,因此伪标签需要soft。hard的标签会改变内部的数据接哦古。第二,batch-wise的训练限制了捕捉全局信息的能力,可能会被极端的局部分布所误导。因此作者提出了潜在流形。使用流形度量,来解决域之间的不同。

方法

动机

黎曼流形通常包含以下对象:线性子空间,凸包金额对称正定矩阵。基于图的连接,建立uige实例级别的连接图或者相似图来构建一个可分的空间。最主要的假设是基于统计分布和协方差矩阵上的对齐,通过使用流形,使得域有着流形和统计属性。受以前的启发,我们的工作是建立一个可区分度的图模型,然后基于流形假设上,对齐源域和目标域
常见的作法是:给定一个特征矩阵file和它的平均向量file,其中d是特征维度,n为样本数量。在对阵正定矩阵(SPD)的设置上,协方差矩阵:filefile。通过一个流形映射函数f,使得:file,随后C’可以分解成低阶向量的内积:file
因此学习一个映射f可以被推到成学习一个非线性变换file其中g(X)是X’的近似。
也就是说:file

低维流形层

我们关注非线性变换g。通常来讲,使用CNN来获得映射g。如图2所示,CNN backbone输出的特征被送入到监禁的低维流形层。由于原始空间和嵌入空间之间存在自然的几何差异,采用多层方案来逐渐减小特征的尺寸。
file
定义黎曼流形层file,通过全连接层。流形层应该具有以下属性:

  1. 可区分性的结构:目标域的样本兼容,inter-class可分离。
  2. 一致性结构:源域和目标通过流形度量对齐。因此通过两个子流形的距离表示域的差异,然后减少定义的流形距离度量,例如grassmann距离,仿射grassmann距离,log-Euclidean度量或者主角相似度。

因此根据上述两个属性,损失函数包含两部分:file

  1. 为了满足第一个属性,我们研究了两个基于相似度的判别:源域inter-class损失和目标域intra-class loss,如图2所示。具体而言,前者用来用来寻找在源域中类别中心向量的平衡结构,后者用来增大目标样本和他们对应的源域类别中心的相似度。公式如下:filel表示黎曼流形层Ml。
  2. 为了满足第二个属性,我们使用流行度量对齐,如图2所示,全部的对齐损失可以被写作:file

最终的损失函数:file两个lambda是平衡参数。后续讲详细介绍这几种损失。

Discriminative Structure Learning

我们介绍如何讲可区分性结构嵌入到流行层中,主要idea如图3所示,因为两个域之间存在差异,所以从源域得到的监督对于目标域来说缺少可区分度。我们关注源域的类间可分性和目标域的类内软性兼容,使用prototype来有效的对域偏移问题鲁棒性,如图3d,这样可以同各国transductive的方式进行。
file

不失一般性,我们定义Ml的流形层:filefile,同理目标域也有一个。源域的所有的类别中心向量计算file以及每个类的类别中心filec为源域的类别数量。定义filefile为源域和目标域的softmax预测分数。file为第i个样本的类别标签。

Source Inter-Class Similarity

首先通过计算的所有类别的样本中心,然后计算一下余弦相似度:
file L2归一化后再file
其中,file暗示第i个类别和第j个类别的相似度。然后这个分离的结构通过最大化他们的不相似度:
file

Target Intra-Class Similarity

我们有了源域得到的soft标签Pt,因为Pt可以认为是分类的置信度,因此可以作为置信度的重要性,作为一个soft label。
相似的,我们计算:
file
需要注意的是,我们使用源域类别的中心,而不是目标域类别的中心。主要原因是:从源域学到的inter-class可以transduce到目标域,同时源域类被中心因为有真值标签,更加可靠。因此,加上概率分数作为置信度,最后的损失:
file
但是Pt有很多噪声。经验上的,如果分类器收敛,则Pt更像是一个one-hot向量。因为truncation是一个有效的去噪方法,我们开发了一种TOP-K的保留机制,来truncated intra-class 损失。定义file为k个最大的元素的索引集合,file,则有file。最终的intra-class损失为:
file
使用余弦距离而不是欧氏距离的原因是,当有些类别的中心会相近覆盖,例如图3a中beta=0时,欧式距离可能不会学到一个分离好的intra-class结构。类间夹角大,类间夹角小。

Global Structure Learning

batch训练的问题,源域计算得到的类别中心或者全类别中心可能不够准确,不能反应完整的类别信息,因为类别数量通常少于c,直接使用经典的图嵌入可能被局部分布舞蹈,导致次优解。
假设随着几次更新后,流形结构不发生很大改变,我们构建了两个anchor来获取全局信息。在每个batch迭代时,我们固定anchors,然后只在epoch结束后或者几次迭代后才更新。具体而言,anchor为类别中心和全类别中心被动态更新。值得注意的时,再优化的过程中,anchors被认为时常量。如果当前batch没有第i个类别的样本,则对应的类别中心为0向量。刚开始时,inter-class通过源域标签监督,然而,在几次迭代后,soft label稳定了,在使用intra-class损失。

Manifold Metric Alignment

流形对齐是为了保证域的一致性,二阶矩估计是重要的表达。因此,计算协方差矩阵。两个流形的对齐为:
file

Grassmann Manifold

认为源域和目标域的流形为grassmann流形的子流形,作为两个独立的点。两个点之间的距离,通过计算他们的正交基:
file
随后作者通过一系列的证明,表示流形的维度只需要从0-bs-1里搜索就行。

Affine Grassmann Manifold

file
其中I为单位矩阵,u为西方差矩阵的平均向量。

SPD manifold

由于SPD矩阵的空间可以看作是一种特殊类型的流形,称为SPD流形,因此已经进行了理论研究来探索SPD流形的非欧几里德几何。
file可以特征值分解,因为log-欧氏距离需要所有的正交基和矩阵都是正定的,因此,我们正则化协方差矩阵file
此时距离为:
file

EXTENSION FOR PARTIAL UDA

统一的表现形式,主要是通过赋值权重的方法。

The Weighting Strategy

定义与类别有关的权重,这样对异常值不敏感。

  1. 首先,第一个intra-class需要loosen intra-class的兼容性约束,更改后的包括目标域的内在结构,加强共享类别的区分度学习:
    file
  2. inter-class保持一样,因为两个类别的inter距离当然是越高越好,不设置w则使得每个类别的权重都相似。
  3. 对于域对齐,目标域和源域部分对齐。理想情况下,如果能获得shared class那更好,但是不行,为了减少异常点的影响,通过加权的w来获得file。然后获得加权的协方差,后续一样。
  4. 对于预测矩阵Pt。它可用于评估某个类属于共享类的概率,对于部分匹配,通过file计算,小的pi说明这个类更可能是异常点。因此为了统一:
    file

实验

后续就是梯度计算和实验设置。

最后修改日期: 2020年12月1日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。