内容纲要
本文关注少样本的动作识别。建立一个C3D的编码器,用来空间时序的视频模块来捕捉short-range的动作模式。这种encoded blocks通过permutation-invariant池化聚合,使得我们的方法对动作的长度和时序的长度都很鲁棒。随后,池化的表达结合到简单的关系米艾舒琪,来编码query和support切片。最终,关系描述子喂入到比较器中,比较support和query的相似度。最重要的,通过空间和时序的注意力注意力模块和自监督,我们重新赋予不同的权重。对于自然的clips,存在时序上分布偏移,可区分度的时序动作变化,因此,我们偶爱徐clip,使用相似度进行对齐。
看不下去了,不是很match
留言