multi-view geometry

现有的多视图 3D 人体姿态估计 方法在很大程度上依赖于精确的外在校准,而 显著限制了它们在不受控制的情况下的实际部署 环境。为了解决这一限制,我们提出了一种无外在参数的多视图 3D 人体姿态估计 (EFMP) 框架,其中包含三个技术贡献。第一 提出了一种局部全局姿态嵌入 (LGPE) 方案 同时捕获细粒度的关节依赖关系 同时建立交叉视图对应关系。其次,开发了 SpatialView Joint Transformer (SVJFormer) 架构 具有三个专用组件:(1) 特征转换 调制 (FTM) 为 不同的标记来模拟异构关系模式;(2) 先验知识增强 (PKE) 系统地整合 人类运动学约束和多视图几何先验 通过结构拓扑编码进行注意力计算; (3) 空间视图联合注意力 (SVJA) 实现解耦 空间视图注意力计算,然后进行联合分布建模,以捕获分层空间视图依赖关系。 第三种是基于骨骼重投影的 Multi-view Aggregation 引入 (BPMA) 机制以整合多个 3D 输出为单个更高质量的 3D 姿势,用于实际应用。对 3 个基准测试的广泛实验表明 我们的方法实现了最先进的性能,同时 保持紧凑的模型大小。
- Categories: