EFMP: Extrinsic Parameters-free Multi-view 3D Human Pose Estimation

Citation Author(s):: zijian zhang (北京邮电大学)
Submitted by:: zijian zhang
Last updated:: Mon, 02/17/2025 - 07:56
DOI:: 10.21227/xa3r-z859

69 views

Categories:

Keywords:

3D human pose estimation

multi-view geometry

transformer

ACCESS DATASET CITE

Abstract

现有的多视图 3D 人体姿态估计方法在很大程度上依赖于精确的外在校准，而显著限制了它们在不受控制的情况下的实际部署环境。为了解决这一限制，我们提出了一种无外在参数的多视图 3D 人体姿态估计（EFMP）框架，其中包含三个技术贡献。第一提出了一种局部全局姿态嵌入（LGPE）方案同时捕获细粒度的关节依赖关系同时建立交叉视图对应关系。其次，开发了 SpatialView Joint Transformer （SVJFormer）架构具有三个专用组件：（1）特征转换调制（FTM）为不同的标记来模拟异构关系模式;(2) 先验知识增强（PKE）系统地整合人类运动学约束和多视图几何先验通过结构拓扑编码进行注意力计算; （3）空间视图联合注意力（SVJA）实现解耦空间视图注意力计算，然后进行联合分布建模，以捕获分层空间视图依赖关系。第三种是基于骨骼重投影的 Multi-view Aggregation 引入（BPMA）机制以整合多个 3D 输出为单个更高质量的 3D 姿势，用于实际应用。对 3 个基准测试的广泛实验表明我们的方法实现了最先进的性能，同时保持紧凑的模型大小。代码和结果可用在 https://github.com/Z-Z-J/EFMP。

Instructions:

|-- dataset
`-- |-- h36m_sub1.npz
    `-- ...
    `-- h36m_sub11.npz
|-- checkpoint
`-- |-- h36m_cpn_wo_parameters.pth
    `-- h36m_cpn_w_intrinsic_parameters.pth
    `-- h36m_gt_w_intrinisc_parameters.pth