guodong's blog

master@zhejiang university
   

论文阅读(15):Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose

这是一篇cvpr2017的文章,文章地址:https://arxiv.org/pdf/1611.07828

代码地址:https://github.com/geopavlakos/c2f-vol-train/

摘要:这篇文章还是主要解决从单张RGB图像恢复到3D人体姿势。作者认为虽然端到端已经很成功了,但最好的方法还是两步走,先从单张图片中预测出2d关节,然后从2d关节预测出姿势。作者认为,3D姿态的表达是一个关键的问题,作者在目标周围建立一个离散的3D空间,然后训练一个ConvNet来预测每个关节的每个体素的可能性,这创建了一个很自然的姿势表达,比直接回归关节的坐标要好。另外,为了进一步提升,作者构建一个从粗到细的方案。这一步骤增加了大尺寸,并实现了图像特征的细化和重复处理。作者说这个方法比所有先进的方法都提升了30%的性能。另外作者使用这个方法来预测野外的3D图像。

作者认为两步走的时候,没有完全利用第一步的卷积层的信息,所以作者为了利用全部的ConvNet信息,提出来了以下几点。

  1. 将3D姿态估计问题转化成在离散的空间中关键点位置问题,而不是直接回归关节点的坐标。作者训练了ConvNet来预测每个关节的每个体素可能性,体积的表示如下图所示:能有效学习,更自然。对于每个关节,体积监督为网络提供了3D空间中每个体素的基础,这些比世界坐标系中的坐标信息更丰富。
  2. 为了解决体积表达的维度增加问题,作者提出了coarse-to-fine的体系。正如2D姿态情况,中间监督和迭代估计是特别有效的策略。对于体积表达,简单堆叠增长的组件,调优估计都不是一个很好地方案。相反,作者逐渐增大监督的体积的分辨率,尤其是z维度(深度)。从粗到细的过程如下图:关于这个过程的介绍,下面详细说明。

 

Volumetric representation for 3D human pose

对于每个关节,作者创建一个空间W*H*D。P(i,j,k)n 表示在体素(i,j,k)中预测的关节n的似然。为了训练网络,监督信息同样是体素形式,每个关节的目标是一个体积,其中使用3D高斯:其中σ=2,xgtn表示GT,训练时采用的loss就是平方差损失:理论上输出的维度是4维的w*h*d*N,但是实际上作者将其输出变成w*d*dN,每个3D网格选择体素最大的点作为关节3D位置。

使用体表达的方法的主要优点是转变高度非线性的预测3D坐标转化成一个更容易管理的离散的形式,不需要预测每个关节的位置,这样更容易学习。就网络结构而言,一个重要的优势就是可以使用全卷机网络,作者采用了沙漏网络,更少的网络参数。就预测输出而言,除了更加精确,作者的网络输出以3D热图的形式,对随后的姿态处理更有用。

Coarse-to-fine prediction

对输出进行迭代过程在2D姿态检测是有效的。作者不使用单独的输出,而是在多阶段多输出。这些预测逐渐精细,更准确,另外,使用中间监督时输出允许更丰富的渐变信号,这在很多网络中都有应用。

鉴于此,作者考虑了逐渐精细的方案。作者简单的用堆叠的组件时,发现收益递减,因为维度太高。事实上,对于更高的3D分辨率64*64*64,16关节,需要估计超过4百万的体素似然。为了解决维度这个蛋疼的问题,作者提出了Coarse-to-fine prediction的方案。第一步使用较低的Z轴分辨率监督。也就是使用每个关节64*64*d体素大小,其中d={1,2,4,8,16,32,64}。如图所暗示:

关于上图,输入是单张图像,输出是致密的3D体积,每个关节的分离的体素似然。这个网络包含多个全卷积组件,oarse-to-fine监督的形式,这个策略使得训练更有效,可以使用早期的信息。综合3D热图,监督信息的深度z的分辨率也随之增加,中间的虚线表示中间的热图和图像特征融合作为下一个全卷机模块的输入。为了展示方便,这里中间的热图仅仅对应着一个关节的位置。

Decoupled architecture with volumetric target

为了证明有效,作者还设计了一款不是端到端的系统,这些通常适用于没有监督的野外图像,受3D Interpreter Network的启发,作者解耦3D姿势估计为两个序列步骤,包括预测2D关键点热图,然后使用体积表达方式预测3D关节位置。第一步可以使用2D标签训练,第二步需要3D信息,这些都很容易得到。其结构如下:蓝色块暗示3D热图,绿色块暗示2D热图。解耦合结构:输入产生的2D热图输出作为第二部分的输入,第二部分有效的将2D转化成3D,注意的是,第二部分不需要图像的特征,只需要2D关键点。从粗到细的结构:使用2D热图作为中间监督,和图像特征combine一起,同时有着图像和2D关键点的信息。

实验结果

数据集:Human3.6M ,HumanEva-I, KTH Football II,MPII




上一篇:
下一篇:

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注