内容纲要

Sumamry

主动学习是再一堆无标签数据中,选择最有价值的样本来减少标记的工作量。主动学习策略包含

  1. 无标签实例包含了多少信息量(不确定性估计)
  2. 实例集合的中变化情况(分散性估计)
  3. 两者结合

最近的神经网络方法使用一个辅助的网络来估计无标记样本的损失,或者使用生成模型来捕捉分布的不同,或者使用图卷积来捕捉无标签样本和有标签样本的关系。然而,作者假设神经网络学习的特征可以推理模型的不确定性同时能够解决数据的高维挑战。一些模型仅仅考虑模型的输出,但是这不能传达模型当前状态下的完整画面。在低维空间中需要获取不确定性特别重要,因为训练数据特别少。BADGE使用分类层的梯度,但是性能提升有线,并且计算量大。

作者提出有效的方法,ALFA-Mix。通过评估为这些实例的扰动版本预测的标签的可变性来识别信息丰富的未标记实例。这些扰动版本在特征空间中被实例化为未标记和标记实例的凸组合(参见图 1)。这种方法通过将其特征与先前标记的特征进行插值,有效地探索了未标记实例周围的邻域。特征的凸组合已经被广泛应用到其他中,例如数据增强,使用随机插值或者诱惑问题的真实解。

作者提供了理论的支撑,具体而言,在插值率的范数约束下,插值等价于考虑了1. 有标签数据和无标签数据特征的不同,2. 模型关于无标签数据的梯度。发现新特征使能够找到一个最优的插值点,同时计算开销小。另外,不适用所有的标签数据,而是选择anchors来捕捉每个类别的普遍特征。随后,通过从未标记集中选择实例来构建候选集,当这些实例与这些锚点混合时,会导致模型对这些实例的预测发生变化。然后,为了确保选择的实例是多样化的,在候选集中执行一个简单的聚类,并选择它们的质心作为要查询的点。

Methods

作者计算特征混合,期望,一个足够小的使用标签数据进行插值,对预测标签不应该有着较大的作用。 然后对损失函数进行最大化。前者决定了哪些特征是新颖的,以及它们的值在标记和未标记实例之间有何不同。 另一方面,后者决定了模型对这些特征的敏感性。 也就是说,如果标记和未标记实例的特征完全不同,但模型相当一致,则损失最终没有变化,因此这些特征对模型来说并不新颖。

为什么要求Max,这个是为了求损失函数的上界,因此求了一个max

最后修改日期: 2022年4月22日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。