机器心脏报告
作者:杜伟、小舟
这是一个用于三维点云的无监督胶囊架构,在三维点云重建、配准和无监督分类方面优于SOTA。
理解物体是计算机视觉的核心问题之一。传统上,理解对象的任务可以依赖于大型标注数据集,而无监督方法已经消除了对标签的需要。最近,研究人员试图将这些方法扩展到三维点云问题,但在无监督三维学习领域进展甚微。
最近,来自不列颠哥伦比亚大学、谷歌研究院和多伦多大学的研究人员,包括孙维维、安德里亚塔利亚萨基和杰弗里辛顿,提出了一种用于3D点云的无监督胶囊网络。辛顿说:在没有监督的情况下找到一个物体的自然组成部分以及这些组成部分的内部参照系,是学习如何将一个解析图像转化为局部整体层次结构的重要一步。如果你从点云开始,你可以做到这一点。
具体来说,研究人员通过排列排列等变的注意力来计算对象的胶囊分解,并通过训练随机旋转对象对来监督这一过程。这项研究的核心思想是将注意力面具聚合成语义关键点,并用它们来监督满足胶囊不变性或等方差的分解。这样既可以训练语义一致的分解,也可以学习以对象为中心的推理的标准化操作。在这种情况下,训练既不需要分类标签,也不需要手动对齐的训练数据集。
最后,通过以非监督方式学习以对象为中心的表示,该方法在三维点云重建、配准和非监督分类方面优于SOTA方法。该研究人员表示,源代码和数据集将很快公布。
.944em;">论文链接:https://arxiv.org/abs/2012.04718
项目主页:https://canonical-capsules.github.io/
方法
该网络在未对齐的点云上进行训练,如下图 2 所示:研究者训练了一个将点云分解为多个组件的网络,并通过 Siamese 训练设置实现不变性 / 等方差。
然后研究者将点云规范化为学习的参照系,并在该坐标空间中执行自动编码。
损失
正如无监督方法中常见的那样,该研究的框架依赖于大量的损失,这些损失控制着力图在表征中获得的不同特征。请注意所有这些损失是如何不受监督且不需要标签的。研究者根据他们监督的网络部分组织损失,包括分解、规范化和重建。
网络架构
研究者简要介绍了实现细节,包括网络架构。
实验及结果
自动编码
研究者针对两个训练基线(在单类别和多类别变体中经过了训练)评估了用于训练网络任务(重建 / 自动编码)的方法的性能:
AtlasNetV2 [13],一种使用基于补丁(patch-based)多头解码器的 SOTA 自动编码器;
3D-PointCapsNet [58],一种利用胶囊架构的 3D 点云自动编码器。
下表 1 是定量分析的结果,本文方法在对齐和未对齐的设置下均取得了 SOTA 的性能结果。
下图 3 是定性分析的结果。研究者给出了基于分解的 3D 点云重建方法以及 3D-PointCapsNet [58]、AtlasNetV2 [13]的重建结果。
配准
研究者在配准 3D 点云的能力方面评估了该方法的性能,并与以下 3 个基准进行了比较:
本研究采用的变体方法 RRI,其中使用 RRI 特征 [6] 作为该架构的唯一输入。本文使用 RRI 特征的方法遵循 DeepGMR 训练协议,并训练 100 个周期,而对于 DCP 和 DeepGMR,本研究使用了原作者的官方实现。定量分析的结果如下表 2 所示:
无监督分类
除了重建和配准(这两者是与训练损失直接相关的任务)之外,本研究还通过分类任务评估了方法的有效性,该分类任务与训练损失没有任何关系。结果如下表 3 所示,本文方法均实现了 SOTA 的 Top-1 准确率。
控制变量实验
此外,为了进一步分析规范化胶囊(Canonical Capsules)的不同组件对性能的影响,本研究进行了一系列控制变量实验,结果如下表 4、表 6、表 7 所示:
表 4:损失的影响。
表 6:规范描述符的有效性。
表 7:点的数量对性能的影响。