guodong's blog

master@zhejiang university
   

论文阅读(11):A simple yet effective baseline for 3d human pose estimation

论文地址:https://arxiv.org/pdf/1705.03098     是iccv2017的一篇文章,和 论文阅读(7)Exploiting temporal information for 3D human pose estimation 一样,相同的风格,相同的人

本文解决的问题:给出2D关节的坐标,来预测3D位置。code可见https://github.com/una-dinosauria/3d-pose-baseline.

作者使用了端到端的网络,在相机坐标系里估计3D关节,增加残差连接等先进的技术。作者提到2D到3D关节的深度网络有stacked hourglass architecture,这个是直接将2D网络映射到3D空间的分配,而不是生成2D热图。同时还有人预测2D到3D空间的pairwise distance matrix (DM)。同时还有预测2D到3D关节的角度,这样所需要的维度较低,但需要一个人体的结构。作者尝试了这些方法,因为非线性太多,训练很麻烦,最终放弃。

1、网络的输入和输出

输入:2D。输出:3D。目标:学习一个函数,最小化误差。
n表示姿势,L表示误差。xi可以是2D的GT或者是2D关节的探测器。预测相对于其根关节的全局空间的3d位置,保证低维。f*表示深度网络。

2、网络模型

如上图所示,作者设计了线性模块,后有BN,RELU,dropput,残差连接等。还有另外两个线性层没有画出:一个直接作用于input,提高维度到1024,另一个是用于预测的输出,大小为3n。作者使用2个残差模块,总共有6个linear层,包含4-5百万训练参数。

3、数据处理

输入输出都做归一化处理,减去平均值然后除以标准差。预测的不是3D全局坐标,而是以hip关节为原点中心的局部坐标,和Human3.6M标准协议保持一致。

3.1 相机坐标

在任意坐标系里预测3D关节时不现实的,很自然的做法是选择相机坐标系,这样可以把2D转3D的问题演变成不同相机下2D到3D的转化,同时每个相机都可以提供更多的数据集防止过拟合。作者通过相机的逆变换来旋转平移3D GT。

3.2 检测

在MPII数据集,使用沙漏网络获得2D检测的预训练权重,使用bounding box 来预测人体中心位置,随后围绕中心裁剪成440*440像素,在沙漏网络中resize成256*256。作者fine-tune沙漏网络来获得更好的GT。

4 实验评估

在HumanEva与Human3.6M上进行定量评估,在MPII上进行定性评估。关于Human3.6M数据集介绍:包含2D关节位置,3D GT,相机参数和身体比例。使用1,5,6,7,8训练,9,11评估。根关节对齐后,计算关节和相机的平均误差。
SA表示为每个动作都设计一个模型,MA表示为所有动作只设计一个模型,FT表示fine-tune 2D检测器,SH表示使用层叠沙漏网络获得的2d信息。

协议2:

 




上一篇:
下一篇:

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注