app系统适配性测试,app系统业务流程图

  

  机器之心专栏   

  

  机器之心编辑部   

  

  近日,计算机视觉峰会CVPR 2022公布了大会的录取结果,美图影像研究院(MT Lab)与北航CoLab联合发表的论文被录取。提出了一种分布式感知单阶段模型来解决三维人体姿态估计的难题。该方法通过一次网络正向推理,可以同时获得三维空间中人体位置信息和对应的关键点信息,简化了预测过程,提高了效率。此外,该方法可以有效地学习人体关键点的真实分布,从而提高基于回归框架的准确性。   

  

  人体三维姿态估计是目前的研究热点,具有广泛的应用前景。在计算机视觉中,基于单幅RGB图像的多人三维人体姿态估计问题通常采用自顶向下或自底向上的两阶段方法来解决。然而,两阶段方法不得不忍受大量冗余计算和复杂的后处理,其低效率深受诟病。此外,现有方法缺乏人体姿态数据分布的知识,这使得不可能精确地解决从2D图片到3D位置的病态问题。以上两点限制了现有方法在实际场景中的应用。   

  

  美图研究院(MT Lab)和北航可乐实验室(CoLab)在《CVPR 2022》上发表的论文提出了一种分布感知式单阶段模型,并利用这一模型从单张 RGB 图片中估计多个人在 3D 相机空间中的人体姿态.   

  

  该方法将三维人体姿态表示为2.5D人体中心点和三维关键点的偏移量,以适应图像空间的深度估计。同时,这种表示统一了人的位置信息和相应的关键点信息,从而使得在单个阶段中估计多人的3D姿态成为可能。   

  

     

  

  地址:https://arxiv.org/abs/2203.07697   

  

  此外,该方法在模型优化过程中学习了人体内关键点的分布,为关键点的回归预测提供了重要的指导信息,并基于回归框架进一步提高了精度。这种分布式学习模块可以在训练过程中通过最大似然估计与姿态估计模块一起学习,在测试过程中该模块会被移除,不会增加模型推理的计算量。为了降低人体关键点分布的学习难度,这种方法创新性地提出了一种迭代更新的策略以逐渐逼近目标分布.   

  

  该模型以全卷形式实现,可以进行端到端的训练和测试。这样,算法可以有效且精准地解决多人 3D 人体姿态估计问题,在取得和两阶段方法接近的精度的同时,也大大提升了速度.   

  

  背景   

  

  三维人体姿态估计是计算机视觉中的经典问题,广泛应用于AR/VR、游戏、运动分析、虚拟试衣等领域。近年来,随着元宇宙概念的兴起,这项技术备受关注。目前通常采用两阶段的方法来解决这一问题:自顶向下方法,即先检测一幅图像中多个人体的位置,然后利用单一的3D姿态估计模型预测每个被检测人的姿态;自底向上方法,即首先检测出图片中所有人的3D关键点,然后通过关联将这些关键点分配给相应的人体。   

  

  两阶段法虽然取得了较好的精度,但需要冗余的计算和复杂的后处理来依次获取人体位置信息和关键点位置信息,使得速率难以满足实际场景的部署要求。因此,迫切需要简化多人三维姿态估计算法的流程。   

  

  另一方面,在缺乏数据分布的先验知识的情况下,从单个RGB图片估计3D关键点,尤其是深度信息,是一个病态的问题。这使得应用于2D场景的传统单阶段模型无法直接扩展到3D场景,因此学习并获取 3D 关键点的数据分布是进行高精度多人 3D 人体姿态估计的关键所在.   

  

  为了克服上述问题,本文提出利用一种分布感知式单阶段模型(Distribution-Aware Single-stage model, DAS)来解决基于单幅图像的多人三维人体姿态估计的病态问题。在DAS模型中,3D人体姿态表示为2.5D人体中心点和3D人体关键点偏移量,有效适应基于RGB图像域的深度信息预测。同时统一了人体的位置信息和关键点的位置信息,使得基于单目图像单阶段估计多人的3D位姿成为可能。   

  

  此外,DAS模型在优化过程中学习三维关键点的分布,为三维关键点的回归提供有价值的指导信息,从而有效提高预测精度。此外,为了减轻关键点分布估计的难度,DAS模型采用迭代更新策略,逐步逼近真实分布目标。这样,DAS模型可以高效准确地一次从单目RGB图片中获得多人的3D人体姿态估计结果。   

  

  单阶段多人 3D 姿态估计模型   

  

  在实施中,DAS模型是基于回归预测框架构建的。对于给定的图片,DAS模型通过一个正向预测输出包含在图片中的人的3D人体姿势。DAS模型将人体的中心点表示为中心点的置信图和中心点的中心。   

点坐标图两部分,如图 1 (a) 和 (b) 所示,

  

其中,DAS 模型使用中心点置信度图来定位 2D 图片坐标系中人体投影中心点的位置,而使用中心点坐标图来预测 3D 相机坐标系内人体中心点的绝对位置。DAS 模型将人体关键点建模为关键点偏移图,如图 1 (c) 所示。

  

  

图 1:用于多人 3D 人体姿态估计的分布感知式单阶段模型流程图。

  

DAS 模型将中心点置信度图建模为二值图,图中每个像素点表示人体中心点是否在该位置出现,如果出现则为 1,否则为 0。DAS 模型将中心点坐标图以稠密图的方式进行建模,图中每个像素点编码了出现在该位置的人物中心在 x、y 和 z 方向的坐标。关键点偏移图和中心点坐标图建模方式类似,图中每个像素点编码了出现在该位置的人体关键点相对于人体中心点在 x、y、z 方向的偏移量。DAS 模型可以在网络前向过程中以并行的方式输出以上三种信息图,从而避免了冗余计算。

  

此外,DAS 模型可以使用这三种信息图简单地重建出多个人的 3D 姿态,也避免了复杂的后处理过程,与两阶段方法相比,这样一种紧凑、简单的单阶段模型可以取得更优的效率

  

分布感知学习模型

  

对于回归预测框架的优化,已有工作多采用传统的 L1 或者 L2 损失函数,但研究发现这类监督训练实际上是在假设人体关键点的数据分布满足拉普拉斯分布或者高斯分布的前提下进行的模型优化 <12>。然而在实际场景中,人体关键点的真实分布极为复杂,以上简单的假设与真实分布相距甚远。

  

与现有方法不同,DAS 模型在优化过程中学习 3D 人体关键点分布的真实分布,指导关键点回归预测的过程。考虑到真实分布不可追踪的问题,DAS 模型利用标准化流(Normalizing Flow)来达到对于模型预测结果概率估计的目标,以生成适合模型输出的分布,如图 2 所示。

  

  

图 2:标准化流。

  

该分布感知模块可以同关键点预测模块一起在训练过程中通过最大似然估计的方法进行学习,完成学习之后,该分布感知模块会在预测过程中进行移除,这样一种分布感知式算法可以在不增加额外计算量的同时提升回归预测模型的精度。

  

此外,用于人体关键点预测的特征提取于人体中心点处,这一特征对于远离中心点的人体关键点来说表示能力较弱,和目标在空间上的不一致问题会引起预测的较大误差。为了缓和这一问题,该算法提出了迭代更新策略,该策略利用历史更新结果为出发点,并整合中间结果附近预测值以逐步逼近最终目标,如图 3 所示

  

  

图 3:迭代优化策略。

  

该算法模型通过全卷积网络(Fully Convolutional Networks, FCNs)实现,训练和测试过程都可以以端到端的方式进行,如图 4 所示。

  

  

图 4:分布感知式单阶段多人 3D 人体姿态估计网络结构。

  

根据实验结果,如图 5 所示,单阶段算法和已有 state-of-the-art 两阶段方法相比,可以取得接近甚至更优的精度,同时可以大幅提升速度,证明了其在解决多人 3D 人体姿态估计这一问题上的优越性。

  

  

图 5:与现有 SOTA 两阶段算法对比结果。

  

详细实验结果可参考表 1 和表 2。

  

  

表 1:CMU Panoptic Studio 数据集结果比较。

  

  

表 2:MuPoTS-3D 数据集结果比较。

  

根据单阶段算法的可视化结果,如图 6 所示,该算法能够适应不同的场景,例如姿势变化、人体截断以及杂乱背景等来产生精确的预测结果,这进一步说明了该算法的健壮性。

  

  

图 6:可视化结果。

  

总结

  

在本论文中,美图和北航的研究者们创新性地提出了一种分布感知式单阶段模型,用于解决极具挑战性的多人 3D 人体姿态估计问题。与已有的自顶向下和自底向上这种两阶段模型相比,该模型可以通过一次网络前向推理同时获取人体位置信息以及所对应的人体关键点位置信息,从而有效地简化预测流程,同时克服了已有方法在高计算成本和高模型复杂度方面的弊端。

  

另外,该方法成功将标准化流引进到多人 3D 人体姿态估计任务中以在训练过程中学习人体关键点分布,并提出迭代回归策略以缓解分布学习难度来达到逐步逼近目标的目的。通过这样一种方式,该算法可以获取数据的真实分布以有效地提升模型的回归预测精度。

  

研究团队

  

本论文由美图影像研究院(MT Lab)和北京航空航天大学可乐实验室(CoLab)研究者们共同提出。美图影像研究院(MT Lab)是美图公司致力于计算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品化落地的团队,为美图现有和未来的产品提供核心算法支持,并通过前沿技术推动美图产品发展,被称为「美图技术中枢」,曾先后多次参与 CVPR、ICCV、ECCV 等计算机视觉国际顶级会议,并斩获冠亚军十余项。

  

引用文献:

  

<1> JP Agnelli, M Cadeiras, Esteban G Tabak, Cristina Vilma Turner, and Eric Vanden-Eijnden. Clustering and classifica- tion through normalizing flows in feature space. Multiscale Modeling & Simulation, 2010.

  

<12> Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, and Cewu Lu. Human pose regression with residual log-likelihood estimation. In ICCV, 2021.

  

<15> Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estima- tion for multi-person camera-space localization. In ECCV, 2020.

  

<47> Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, Hujun Bao, and Xiaowei Zhou. Smap: Single-shot multi- person absolute 3d pose estimation. In ECCV, 2020.

  

<48> Xingyi Zhou, Dequan Wang, and Philipp Kra henbu hl. Ob- jects as points. arXiv preprint arXiv:1904.07850, 2019.

相关文章