guodong's blog

master@zhejiang university
   

论文阅读(3)Bio-LSTM: A Biomechanically Inspired Recurrent Neural Network for 3D Pedestrian Pose and Gait Prediction

论文原地址:https://arxiv.org/abs/1809.03705

摘要:在自动驾驶等应用中,了解,推断和预测行人的意图和未来行为非常重要。这种能力允许车辆避免碰撞并提高乘坐安全性和质量。本文提出了一种生物力学启发的递归神经网络(Bio-LSTM),可以预测全球坐标系中行人的位置和三维关节体姿态,给出三维姿态和在先前帧中估计的位置不准确。所提出的网络能够同时预测多个行人的姿势和全球位置,对于距离摄像机最远45米的行人(城市交叉口规模)。所提出的网络的输出是在蒙皮多人线性(SMPL)模型参数中表示的全身3D网格。所提出的方法依赖于新的目标函数,其结合了人类行走的周期性(步态),人体的镜像对称性以及人类步态周期中地面反作用力的变化。本文介绍了PedX数据集的预测结果,这是一个在人行交通繁忙的实际城市交叉口收集的大规模野外数据集。结果表明,所提出的网络能够成功地学习行人步态的特征,并产生准确一致的三维姿态预测。

1、介绍

想象一下,一辆自动驾驶汽车正驶向拥挤的城市交叉路口。 重要的是识别移动的行人并预测行人或一组行人可能在几秒钟内决定是否以及何时制动。 想象一下,一个机器人正在博物馆[1]或一个挤满行人的购物中心担任导游[2]。 机器人必须识别周围人的方向和位置,以提供更好的指导并避免跑入行人。 在这些场景中,准确的行人姿势和位置预测对促进更有效的人机器人/车辆交互和避免碰撞具有巨大影响。

人体姿势估计已经在文献[3] – [8]中进行了大量研究。 然而,先前的工作主要集中于从当前帧中的单个静态RGB图像估计人体骨骼模型的关节位置,并且不解决未来帧的姿势预测问题。 最近,研究人员开始研究给定视频序列的人体姿势的预测(预测和预测)[9] – [13]。 这项工作大部分集中在基于骨架的联合位置表示上。 此外,一些研究如[10],[11]仅限于预测单个人类受试者的2D姿势,通常以视频帧为中心。

另一方面,深度学习技术,特别是递归神经网络,已被证明可有效预测自然视频序列中的未来帧[14],[15]。 然而,这些方法关注于图像上的像素级预测,并且不专门用于人体姿势表示(骨架或网格)。

本文重点关注该问题的两个新方面:预测全身3D网格,同时为多个人进行预测。 此外,我们尝试使用经过充分研究的人类行走生物力学来约束问题,同时在城市交互环境中使用上下文信息。 注意,在一些文献中,术语“姿势预测”和“姿势估计”可互换使用,两者都指的是从单个图像(当前帧)估计姿势(通常是基于骨架的关节位置)的任务[ 16],[17]。 在本文中,我们使用术语“预测”来指代在序列中的未来帧中预测/预测3D行人姿势和位置的特定任务假设已经在先前帧中估计了3D姿势。 初始3D姿势模型的估计超出了本文的范围,但在Kim等人的文章中有详细描述。[18]

我们提出bio-LSTM,一种生物力学启发的递归神经网络来解决这个任务。 所提出的网络将先前估计的过去帧中的姿势参数作为输入并输出行人姿势的全身3D网格其在未来时间步长中在度量空间中的全局坐标系中定位。 我们的网络可以在真实的交叉尺度(最多45米)预测每个帧中的多个行人,并且网格表示包含有关传统骨骼表示缺乏的身体形状和比例的更丰富的信息[19]。 所提出的网络基于长期短期记忆(LSTM)网络[20],其灵感来自人体步态的生物力学,例如人体的双侧/镜像对称[21],人类行走的周期性(步态) [22],以及人类步态周期中地面反作用力的变化[23],[24]。

我们在PedX数据集[18]上提出了我们提出的网络的实验结果,这是一个大型的野外数据集,收集在美国密歇根州安阿伯市的人行交通繁忙的实际城市交叉口。 除了PedX交叉点数据集之外,我们还在受控室外环境中使用动作捕捉(mocap)系统收集并注释了评估数据集。 我们将我们的预测与新颖优化程序[18]生成的3D标签和mocap基础事实进行比较,以验证我们方法的准确性。 结果显示了对于下一帧和多个时间步长的成功且准确的身体姿势预测。

本文的贡献包括:1)全身三维网格预测,以及全局坐标系和度量空间中基于骨架的关节位置; 2)LSTM网络中基于生物力学的损失函数,以确保逼真和自然的姿势预测; 3)在嘈杂的城市交叉口数据的同时,对多个行人进行野外步态和姿势预测。

本文的结构如下:第一部分介绍了人类预测的三维问题并激励了我们的工作。 第二节描述了序列预测中的相关工作,并介绍了SMPL模型[25],一个参数化的体形模型,我们用它来表示3D人体姿势。 我们还描述了步态分析中的相关工作,我们为网络制定提供了灵感。 第三节描述了我们提出的网络和生物启发损失函数。 第IV节描述了PedX数据集和实验设置。 第五节介绍了我们对下一帧和多帧预测的预测结果。 第六节介绍了我们的结论和未来的工作。

2、RELATED WORK

在本节中,我们首先描述视频序列预测的相关工作。 然后,我们描述了用于表示3D人体姿势的SMPL模型。 我们还描述了激发我们方法的步态生物力学相关工作。

2.1 Sequence Prediction

递归神经网络(RNN)在学习序列中的时间动态方面已经显示出有效的结果[26]。 特别是LSTM网络[20]由于其学习长期依赖性的能力而被广泛用于序列预测的文献中[27] – [29]。 最近,LSTM网络已被应用于预测自然视频序列中的未来基于图像的帧,例如PredNet [14]和MCnet [15]。 然而,这些研究主要集中在视频图像序列上,并且通常使用卷积运算来利用图像中的像素空间布局。

对于人体姿势预测的具体任务,先前的研究已经研究了在过去的视频序列中预测未来帧中的关节位置[9] – [12]。然而,在大多数这些研究中,人体姿势仅通过骨架中的关节位置来表示,并通过在2D图像上覆盖骨架来可视化。此外,Toyer等人 [10]和Fragkiadak等人 [11]仅限于预测以视频序列为中心的单个人类对象的2D姿势。但是,这些假设并不总是成立。对于在拥挤的城市交叉路口收集的视频,有多个行人同时移动,一些行人可能离相机很远。另外,基于骨架的关节位置可能并不总是准确地表示完整的人体姿势。例如,图1b和图1c都具有相同的手腕位置和手部关节位置的非常小的差异,而图1c显示了网状物中的生物学上不可行的身体姿势。因此,除了基于骨架的关节位置之外,重要的是预测3D全身网格以表示姿势。

2.2  3D Human Pose Representation

在本文中,我们使用蒙皮多人线性(SMPL)模型[25]来表示3D人体姿势。 我们之所以选择SMPL表示,是因为1)它可以代表不同的人体形状并准确而真实地构建[25]; 2)除了传统的基于骨架的3D关节位置外,输出还是全身3D网格[25],[30]; 3)它是一个参数统计模型,可以通过参数向量轻松表示人的位置,姿势和形状。 SMPL模型已广泛应用于图像姿态估计[16],[17],[31],但以前很少有关于预测/预测SMPL模型的工作,特别是在全球坐标系中。

SMPL模型由三种类型的参数公式化:平移γ,姿势θ和形状β。 3D体网格标记为。平移(“trans”)具有三个参数值,指示x,y和z轴上的全局转换(从数据捕获系统到人的距离)。姿势参数包括身体骨架装置中23个关节的相对旋转的轴角表示和x,y和z轴上的三个根方向参数(总共72个参数)[25]。形状有10个参数值,表示人体形状。在此公式下,预测3D人体姿势的任务变为预测85(= 3 +72 +10)个SMPL参数的任务。

2.3  Gait Biomechanics

除了保持可行的身体姿势(即,避免诸如图1d中的扭曲)之外,重要的是考虑人体步态的生物力学特性。 步态分析是一个长期的研究领域,对人类运动和双足机器人的发展产生了巨大的影响[22],[24],[32],[33]。 针对步行姿态预测的具体任务,我们回顾了人体步态研究中的相关工作,并从三个突出的生物力学特征中汲取灵感:人体镜像对称性,步态周期性,以及人体步态周期中地面反作用力的变化。

在文献[34] – [36]中长期观察到健康人体的双侧/镜像对称性。 当腿沿臀部中心对称放置时,人处于平衡状态。如图2所示,希望θ1=-θ2(也参见图1b中的静止姿势)。对于两个肩关节也可以观察到类似的对称性[37]。

循环腿运动是人类步态的另一个重要特征[22],[38]。据观察,人类以节奏和周期性运动行走[39]。一步一步,人的腿部运动遵循循环运动,假设所有连续的周期与以恒定速度行进时的第一周期大致相同[22]。此外,假设在正常步行周期和所有连续周期期间的速度,步幅和方向在没有外力的情况下不会突然改变(例如,人在正常行走期间不会突然翻转180°)[40]]。我们在我们提出的网络中观察到这种周期性。

此外,在行走期间需要足够的地面反作用力(GRF)来支撑身体[22]。 GRF通过支脚施加,这意味着一只脚的至少一部分必须与地面接触[22]。 为此,我们在场景中计算局部地平面并绘制我们的身体网格预测图,以确保脚与地面之间的物理可信接触。

3、METHOD

我们的网络的目标是在过去的帧中给定3D姿势,预测未来帧中的3D全身网格。 图3说明了我们提出的方法的网络图。 有关网络体系结构和错误功能的详细信息将在以下小节中介绍。

3.1  Network Architecture

我们实现了一个双层堆叠LSTM递归神经网络,然后是一个密集连接的神经网络(NN)层作为我们的基本网络架构。这种架构的灵感来自LSTM-3LR方法[11]。我们试验了层数(范围从1到5),发现在我们的实验中添加第3层后,均方根预测误差(RMSE)停止下降;因此,我们选择了双层堆叠架构。我们使用该LSTM结构来预测SMPL平移和姿势参数(分别为3个平移参数和72个姿势参数)。我们假设每个人的形状参数(10 beta参数)保持与前一帧相同(人的身体形状不会逐帧变化)。每个LSTM层由32个单元组成(通过实验确定)。第3.2节详细描述了我们的生物启发式训练目标函数(图3中的错误模块)。第3.3节描述了我们的下一帧预测程序。第3.4节描述了我们的多时间步预测的程序。

3.2 Training Objective

我们结合了三个突出的生物力学特征:步态周期性,人体镜像对称性,以及人体步态周期中地面反作用力(GRF)在我们网络训练目标中的变化。首先,为了解决步态周期性,我们将周期性损失表示为预测序列中的帧差与训练数据中的“真实”帧差之间的平均绝对误差。我们在图4中说明了这个过程。我们将l定义为训练序列中的回溯窗口长度。在此图中,l = 5。给定最后l个时间步的平移和姿势参数为x(t-5),…,x(t-1),我们的目标是预测下一个时间步长x(t)的平移和姿势参数。基于在步行周期[40]期间速度,步幅和方向不会突然改变的假设,我们假设帧之间的差异保持稳定。而且,腿保持循环运动。因此,我们将问题转化为预测帧之间的差异。我们为时间步长t的差异定义dt = x(t)-x(t-1)。然后我们使用d(t-4),…,d(t-1)作为我们网络的输入并预测^d(t)作为输出。然后,我们在时间t的输出转换和姿势由x(t-1) + ^d(t)给出。因此,序列的周期性损失Lc可表示为:
其次,如第II-C部分所述,当左右腿和肩关节呈镜像对称时,人是稳定的。 因此,我们可以将基于体镜对称性的损失写为:

最后,为了提供足够的地面反作用力,我们将脚限制在地面上。 给定每个人在每个框架中的位置的地面高度G,我们将脚和地面之间的体积最小化,如图5所示。我们将脚和地面之间的体积模型简化为矩形立方体体积的总和 (粉红色阴影)和三角形棱镜(绿色阴影)。 我们这样做是为了双脚,总而言之,在脚和地面之间至少会发生一些力传递。 我们还鼓励更多的地面接触 – 人类通常在行走时使用其完整的足底(脚底/足底)并且通常不会脚尖[42]。 因此,地平面的体积损失写为:

其中Lc是步态周期的损失,Ls是基于体镜对称性的损失,Lg是基于地平面体积的损失,而λ1和λ2是用户设定的正则化参数,用于调整生物激励的权重 损失函数术语。 在我们的下面的实验中,我们设置λ1= 10和λ2= 0.01(通过循环测试确定)。

3.3 Next-Frame Prediction

我们将下一帧预测表示为监督学习问题。 首先,我们通过从长度为l + 1的所有姿势序列创建批次来构建训练,验证和测试序列,我们用 表示所有t 在数据集中。第一个姿势是网络的输入,最后一个是要预测的下一帧目标。 当l> 1时,我们使用所提出的具有训练目标(4)的2LR-LSTM网络进行预测。 当l = 1(仅给出一帧预测下一个)时,我们将帧差异定义为所有训练数据中的中间帧差异,并应用这样的帧差异来预测下一帧,假设一个人遵循前导方向 人口流动[46]。

3.4 Multiple Timestep Prediction

在多时间步预测中,给定,我们首先预测Xt。 然后,在时间t的该预测被反馈到网络,并且我们基于序列预测t + 1处的姿势。该过程在图3中标记为“MTP”(虚线)。这样,我们可以在时间t,t + 1,t + 2,…,t + k连续输出姿势,用于任何未来的时间步长k。

4、THE PEDX DATASET AND EXPERIMENTAL SETUP

本节首先介绍PedX数据集,即用于实验的野生行人姿势数据集。 然后,描述用于比较的基线方法和评估度量。 还介绍了PedX数据集的数据预处理过程。

4.1 The PedX Dataset

PedX数据集[18]于2017年在美国密歇根州安娜堡市中心的真实城市交叉路口收集。该数据集包含来自三个四路交叉口的集合,这些交叉点具有繁忙的行人交通。 PedX数据集包含10,000多个行人姿势和1800多个不同长度的连续序列(平均序列长度为6帧)。 PedX数据集由来自两个立体RGB相机对(分别标记为BG和YR)和四个Velodyne LiDAR传感器的数据组成。以大约每秒六帧(fps)的速度收集摄像机视频。我们从面向交叉路口的停放的汽车收集了这个数据集,记录了野外行人的行为(行人跨越摄像机5-45米的范围)。如Kim等人所述,通过优化手动注释的2D行人姿势和3D LiDAR点云来获得每帧中的3D行人姿势。 [18]。鉴于过去序列中几帧中的这种(已知的)3D行人姿势(也称为“3D训练标签”),我们提出的网络预测下一帧中的3D行人姿势和未来的多个时间步长。

PedX数据集还包含在受控室外环境中收集和注释的评估数据集,其中包含动作捕捉(mocap)系统(名为“mocap数据集”)。 使用与交叉点数据相同的设置收集mocap数据集,但仅包含一个具有mocap标记的行人。 我们还评估了我们提出的方法在mocap数据集上的性能,因为mocap groundtruths是可用的[18]。

4.2 Baseline Methods

我们将我们提出的bio-LSTM网络与几种基线方法进行比较。 我们首先将我们的网络与双层堆叠LSTM递归神经网络进行比较,然后将密集连接的NN层作为最先进的基线方法(如[11]中所述的“2LR-LSTM”方法)进行比较,而不是生物约束。 标准2LR-LSTM在1)基于骨架的3D关节位置(在下表中表示为“骨架关节”)和2)直接SMPL参数(表示为“trans+ pose”)上进行训练。

然后,我们将我们的工作与“帧差异”基线方法进行比较[47]。 在该基线方法中,通过计算过去帧中的平移和姿势参数的差异然后将该差异应用于未来帧来预测3D行人姿势。 例如,如图4所示,我们计算d0 =median{d1,d2,… dl-1}。 然后,预测的平移和t处的姿势等于平移并且在t-1加上d0。 此基线方法基本上强制执行Lc constriant,但不训练LSTM网络。

此外,我们分析了每个损失项在我们的生物启发目标函数中的效果,并总结了在消融研究中使用不同损失项的结果。

4.3 Evaluation Metrics

我们提出的bio-LSTM网络的输出是85个SMPL参数。 根据Loper等人的研究,我们根据SMPL参数计算形成3D全体网格的6890个顶点的位置。[25]。 在本文中,我们使用顶点均方根误差(顶点RMSE)以及标准3D平均每点位置误差(MPJPE)来评估我们的方法[18],[48]。 由于MPJPE仅评估基于骨架的关节位置并且不捕获全网格中的差异,因此顶点RMSE有助于评估生物不可行的姿势,如图1d。 我们还计算了全局平移中的RMSE以及所有24个关节角度的平均每关节角度误差(MPJAE)[49]。

4.4 Data Pre-Processing

在我们的预测实验中,我们将平移和姿势参数标准化。 平移参数通过它们在x,y和z轴上的最大和最小范围归一化,并且关节角度大小在[0,2π]之间归一化。 在我们的PedX实验中,我们使用85%的数据序列作为训练,10%的数据序列作为验证,5%的数据序列作为测试。 选择该分割方案以确保大量训练序列以及足够的测试数据来评估我们的结果。 在训练期间随机改组序列,我们报告三次随机初始化的平均值和标准差。

我们的训练标签来自Kim等人之前的3D姿态估计优化方法。 尽管他们的方法实现了现有技术的估计结果,但是由于3D LiDAR点云数据和长观察范围中的测量不准确性而在从车辆捕获数据时仍然存在噪声。 在我们的预测实验中,我们消除了噪声模型(“异常值”),例如序列内距离较大或根方向突然变化的帧,如图6所示。我们提出了在滤波和噪声标签上训练的预测结果,以表明我们提出的方法可以稳健地处理这种噪声。

5、RESULTS AND DISCUSSION

在本节中,我们将介绍PedX和mocap数据的下一帧预测结果。 三个随机初始化的标准偏差在下表的括号中给出。

表I显示了具有回顾窗口长度l = 5的PedX数据集的下一帧预测的结果。选择l值作为行人通常在PedX数据集中以5-6帧完成步行周期。表II给出了对mocap数据集进行下一帧预测的结果,其中l = 5.我们的方法能够在室外交叉口数据中实现大约85mm的误差(全局帧中的全身网格)和mocap数据中的73mm误差。平移范围约为45米(因此,误差率为0.16% – 0.19%)。平均角度误差为13.5°。此外,在两个实验中,我们提出的网络在平移,关节,顶点和角度中产生更好的预测结果(较低的RMSE误差)。我们观察到步态周期性损失(Lc)是最突出的特征,并且与基线方法相比产生小得多的误差(比仅预测骨骼关节36.8%和顶点RMSE改善21.0%)。添加镜像对称约束(Ls)可实现适度的性能提升(约1.6%)。图7显示了我们预测结果的定性示例

表III示出了当l = 1时的预测结果,即没有来自先前帧的姿势信息的预测。 从上表中我们可以看到,我们的方法仍然优于无生物力学的限制标准的2LR-LSTM预测。 mocap数据中的误差明显小于PedX数据中的误差,因为mocap数据中只有一个行人,并且帧差异比具有多个行人的野外交叉点数据更规则

表IV显示了mocap数据的预测结果,使用训练有噪声训练标签的模型,这些标签反映了真实场数据中通常看到的误差,如第IV-D节所述。 可以看出,由于输入数据中的噪声,基线方法具有明显更高的误差,但是我们提出的方法产生几乎可比较的预测结果。

表V显示了我们对PedX数据的预测结果的地面距离误差。 我们比较了添加Lg损失项之前和之后的预测结果的地面距离。 我们还报告了先前估计的姿势的地面距离误差[18]。 可以看出,Lg损失项能够将脚限制在更接近局部地平面的位置。 剩余误差可能是由于来自LiDAR点云数据的局部地平面的估计误差,以及(3)中的简化体积损失模型。 由于人体形状,脚和腿的估计长度和宽度也略有变化,这也可能导致地面距离误差。

我们还计算了我们的方法的运行时间。 使用未经优化的代码,在具有Intel i7 3.60GHz CPU和两个NVIDIA TITAN X GPU的台式计算机上,每个人的预测大约需要1ms。 未来的工作将包括将该方法应用于自动驾驶车辆应用中的实时数据捕获和预测。

6、CONCLUSION

本文提出了生物LSTM,一种用于3D行人姿势和步态预测的生物力学启发的递归神经网络。 Bio-LSTM能够在度量空间中预测全球位置和3D全身网格以及关节体姿势。 在PedX(一种大规模的,在野外的城市交叉路口行人数据集)上评估我们的方法,我们预测比现有技术更准确和生物可行的身体姿势。 此外,我们的网络对训练数据中的噪声具有鲁棒性。

目前,这项工作专门针对城市交叉口的行人姿态预测,其应用于规划以人为本,行人友好的交叉路口和智能城市。 虽然我们目前正在分析行人的步行和站立活动,但可以扩展这项工作以预测其他活动,例如跑步。 此外,我们目前假设行人之间的独立性。 未来的工作将包括纳入行人 – 行人和汽车 – 行人互动。

我们的新型目标函数迈出了对行人步态预测施加生物力学约束的第一步。然而,人类步态特征的许多方面可以进一步研究,例如步态的动态不对称[50]和人类步态周期中足部不同部位的足压变化[23],[24]。此外,虽然在以前的工作中对身体形状进行了优化并用于我们的预测,但我们没有说明性别之间的差异,只是简单地使用了性别中性的SMPL网格。然而,文献中已经表明,男性和女性的步幅不同,并且可以区分每个人的个体步态[21]。通过使用帧差(Lc约束),在某种程度上,我们固有地假设每个人都保持自己的步幅和个人步态特征。然而,可以在姿势预测中进一步研究这种个体步态特征。

此外,将我们当前的工作扩展到不同的序列长度(变化的l)和具有更精细时间分辨率的序列将是有趣的。未来的工作还将包括将姿势估计和预测结合起来用于端到端姿势分析系统。

7、APPENDIX

本附录显示了SMPL网格关节位置以及我们从PedX数据集中观察到的关节对称性。 图9a显示了SMPL主体网格的关节位置。 图9b显示了所有帧中左右大腿关节(关节#1和#2)的旋转角度之间的关系图。 可以看出,左右大腿关节角度之间存在很强的负相关关系,这证实了我们目标函数中的镜像对称性假设。

致谢

The authors thank Wonhui Kim for making the 3D pose estimation results on the PedX data available [18]. The authors also thank Charles Barto for his work in visualizing the 3D SMPL mesh models。

 

 

 

 

 

 

 

 




上一篇:
下一篇:

头像

guodong

说点什么

avatar
  Subscribe  
提醒