内容纲要

这是一篇2016ICML论文,使用了memory,粗略读读

Introduction

使用RNN中的内在memory的策略,不太可能延伸到新任务少样本的设置。可扩展的解决办法有以下的必要要求:

  1. 首先,memory中的信息要stable(当需要时也可以使用)和element-wise addressable(有选择性的获取相关的信息块)。
  2. 参数的数量不应该和memory的大小绑定。

这两点特征,LSTM不满足。然而,NTM(neural turing machines)的memory networks的结构符合上述标准。因此,我们提出memory-augmented neural network。注意这个memory是外部的memory而不是内部的memory(如LSTM)。
此外,我们还提出一个内存获取模块,强调memory内容,而不是根据memory的位置。我们的方法结合了the best of two worlds(方面):

  1. 通过梯度下降,slowly学习一个摘要方法,获取raw data的有用信息。
  2. 通过external memory模块,rapidly 绑定从未见过的信息。

Meta-learning Task

在时序偏移的情况下,y既是目标,又和x一起作为输入。也就说,网络可以看作输入队列file。网络的输出是xt的估计标签。

Memory-Augmented Model

NTM

NTM包含一个控制器,例如前向网络的LSTM,和一个外部的memory模块,使用一定数量的read和write头。
如果NTM可以学习有关应放置在内存中的表示类型以及以后如何使用这些表示进行预测的通用策略,则它可能能够利用其速度对仅查看过一次的数据进行准确的预测。
控制器可以是LSTMs或者前馈网络。控制器和外部memory通过read和write头进行交互。给定一个输入x,控制器产生一个key,kt,随后被用来储存在memory矩阵M,或者被用来检索一个特定的memory。使用余弦相似度进行检索,然后根据softmax生成一个可读的向量,随后对所有向量进行加权求和。这个memory被用作分类器的输入和下一个控制器状态的输入。

Least Recently Used Access

Location-based的寻址,被用于促进逐步迭代,避免长距离或者远距离跳动。这个方法对于基于序列化的预测任务很好用,但是这种类型的接入对于任务来说不是最优的,这种任务通常强调一个内容的连接性,而和任务无关的。在这种情况下,使用LRUA。基于内容的,这种模块强调精确的相关信息的编码,是完全基于内容的编码。新的信息写入到很少使用的位置,保留最近的编码信息,或者写入到最后一次使用的位置,作为最新的相关的信息的更新。这俩选项,通过上一个读权重和权重尺度的内插决定。
file
其中,γ是要给decay参数,wtr通过file计算。
wtw通过file计算。

这样根据时间序列,都得到了下一个时刻的memory

最后修改日期:2020年10月15日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。