内容纲要

作者提出一个针对meta-learning的内循环采用贝叶斯处理方法,使用深度核。结果,可以学习一个核,迁移到新任务。作者称为深度核心迁移。这个方法有着很多优点,是一个前向的实现,通过一个有火气,提供不确定度量和不需要任务相关的参数。

introduction

深度学习方法努力提供不确定性,这在处理稀缺数据时是至关重要的要求,而在有限的证据下,人类可以有效地权衡不同的选择。在这方面,一些作者认为,人类进行少样本式归纳推理的能力可能源自贝叶斯推理机制。因此,我们认为,将元学习作为在分层模型中实施学习的自然解释,会通过使用深核方法等效于贝叶斯等效。

深核方法结合神经网络,可以提供一个尺度的和表达的闭集解协方差函数。对于不同任务来说,就存在一个共同的显然实现知识迁移。该先验条件可以是具有跨任务共享的参数的深层内核,因此,给定一个新的未见过的任务,可以有效地估计以小支持集为条件的查询集的后验分布

以往的meta-learning方法在特定于任务的参数p(ρtjx∗; D;θ)上形成后验分布,然后计算后验预测分布p(y ∗ jx ∗;θ)。 这种方法从概率角度讲是符合的,但存在问题,因为它需要通过摊余分布或抽样来管理两个级别的推理,这通常需要笨拙的体系结构。

两个循环。在外面更新θ,在内部更新ρt,这种情况存在各种问题,因为通过两套参数的联合优化使学习不稳定,并且需要估计高阶导数(梯度的梯度)以更新权重。

为了避免这些弊端,我们提出了一种更简单的解决方案,即将特定任务的数据的ρt边缘化。这种边缘化是分析性的,并导致封闭形式的边缘可能性,该边缘可能性在给定的参数集下测量数据的预期性。通过找到深核的参数,我们可以使边际可能性最大化。按照我们的方法,无需估计特定于任务的参数的后验分布,这意味着可以直接计算后验预测分布,而无需经过中间推理步骤。我们认为,这种方法在少数情况下可能非常有效,相对于元学习方法,该方法显着降低了模型的复杂性,同时保留了基于状态的贝叶斯方法(例如不确定性估计)的优势。

method

kernel

核就是表示两个点之间的关系,对应着协方差:file
最简单的是线性核,使用内积。使用线性核计算很方便,但是太简单。因此其他核的变体被讨论:
Radial Basis Function kernel (RBF), Matérn kernel, Cosine Similarity kernel (CosSim), and the spectral mixture kernel。
通过卷积网络,构建一个核:file核的参数为θ,网络的参数为Φ。这样学习这两个参数进行联合训练。

结构

使用内循环会导致不稳定问题。因此,我们使用贝叶斯积分来代替内需换,同时优化参数,被成为最大似然内从方法,具体而言,在任务之间学习最大的边界似然。这种可能性的边缘化使用高斯过程方法将每个任务的每个特定于任务的参数积分出去,用内核替换内部循环模型。

定义边缘似然函数贝叶斯的层级模型:file
其中后者是一个每个任务相关的参数的边际。定义任务特定的参数为ρ,则file,其中k是每个任务中的元素。在典型的元学习中没任务特定的积分通常使用一个内循环优化方法完成。任何额外的任务之间的参数θ核φ通过外层循环来优化。想法你我们做一个积分,然后只优化外层参数。我们隐式使用高斯模型,等式4的一般结果都是这种表现形式。此时,预测的结果为:
file
尽管每个数据点的都很小,但是数据点的总数足够多,使得最大似然2类型不会过拟合或欠拟合。通过移除任务特定的参数,这样对新的未见的任务也会有很好的生成能力。
需要注意的是,这个核直接使用深度核学习不用,它的编辑是所有的数据,这样会忽视任务之间的不同,和多任务学习也不同,他们呢的任务有着相同的输入值。

算法伪代码如图所示:
file

回归

我们想要为回归案例找到(3)的闭合形式表达式。假设我们对由干净信号f(x)产生的连续输出y感兴趣,该信号被方差为σ2的同调高斯噪声所破坏。我们对观察到的输出和测试位置处的函数值的联合分布感兴趣。为了便于说明,让我们定义k = k(x∗; x)来表示x∗和D中N个训练点之间的协方差的N维向量。类似地,让我们写k ∗∗ = k(x ∗; x ∗)表示x ∗的方差,K用于确定D中训练输入的协方差矩阵。预测分布p(y ∗ jx ∗; D)由贝叶斯定律获得,并给出先验的共轭。高斯的均值和协方差指定为:
file
定义函数的分布,该函数假定在任何有限点集处收集的值都具有联合高斯分布。我们将噪声σ2I吸收到协方差矩阵K中,并将其作为可学习参数θ的向量的一部分,该向量还包括核的超参数(例如线性核的方差)。
file

分类

贝叶斯对分类案例的处理并非没有问题,因为非高斯似然性打破了共轭性。 例如,在二元分类的情况下,伯努利似然性导致证据的难以处理的边缘化,因此不可能以封闭形式估计后验。解决此问题的常用方法(例如MCMC或变分方法)导致几次学习的计算成本很高:对于每个新任务,后验都是通过近似或采样来估计的,引入了一个内部循环,该内部循环将时间复杂度从常数O(1)增大为线性O(K),其中K为内部循环数。 另一种解决方案是将分类问题视为回归问题,因此将证据和后验均恢复为分析表达式。在文献中,这被称为标签回归(LR)(Kuss,2006)或最小二乘分类(LSC)(Rifkin和Klautau,2004; Rasmussen和Williams,2006)。 在实验上,在二元(Kuss,2006)和多类(Rifkin和Klautau,2004)设置中,LR和LSC往往比其他方法更有效。在这里,我们得出基于LR的分类器,该分类器在计算上便宜并且易于实现。
file

最后修改日期:2021年1月12日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。