"让机器拥有像人类一样感知 3D 物体和环境的能力，是人工智能领域的一项重要课题。牛津大学计算机科学系博士生 Bo Yang 在其毕业论文中详细解读了如何重建和分割 3D 物体，进而赋予机器感知 3D 环境的能力，突破了人工智能和机器理解的界限。赋予机器像人类一样感知三维真实世界的能力，这是人工智能 ...."

小黄人
邦邦社区 295 号会员
突破AI 分割3D物体 • 0 回帖 • 293 浏览 • 5 年前

突破 AI 和机器理解的界限，牛津博士论文学习重建和分割 3D 物体

让机器拥有像人类一样感知 3D 物体和环境的能力，是人工智能领域的一项重要课题。牛津大学计算机科学系博士生 Bo Yang 在其毕业论文中详细解读了如何重建和分割 3D 物体，进而赋予机器感知 3D 环境的能力，突破了人工智能和机器理解的界限。

赋予机器像人类一样感知三维真实世界的能力，这是人工智能领域的一个根本且长期存在的主题。考虑到视觉输入具有不同类型，如二维或三维传感器获取的图像或点云，该领域研究中一个重要的目标是理解三维环境的几何结构和语义。

传统方法通常利用手工构建的特征来估计物体或场景的形状和语义。但是，这些方法难以泛化至新物体和新场景，也很难克服视觉遮挡的关键问题。

今年九月毕业于牛津大学计算机科学系的博士生 Bo Yang 在其毕业论文《Learning to Reconstruct and Segment 3D Objects》中对这一主题展开了研究。与传统方法不同，作者通过在大规模真实世界的三维数据上训练的深度神经网络来学习通用和鲁棒表示，进而理解场景以及场景中的物体。

总体而言，本文开发了一系列新型数据驱动算法，以实现机器感知到真实世界三维环境的目的。作者表示：「本文可以说是突破了人工智能和机器理解的界限。」

这篇博士论文有 143 页，共六章。机器之心对该论文的核心内容进行了简要介绍，感兴趣的读者可以阅读论文原文。

论文地址：https://arxiv.org/pdf/2010.09582.pdf

论文概述

作者在第 2 章首先回顾了以往 3D 物体重建和分割方面的研究工作，包括单视图和多视图 3D 物体重建、3D 点云分割、对抗生成网络（GAN）、注意力机制以及集合上的深度学习。此外，本章最后还介绍了在单视图 / 多视图 3D 重建和 3D 点云分割方面，该研究相较于 SOTA 方法的新颖之处。

基于单视图的 3D 物体重建

在第 3 章，作者提出以一种基于 GAN 的深度神经架构来从单一的深度视图学习物体的密集 3D 形状。作者将这种简单但有效的模型称为 3D-RecGAN++，它将残差连接（skip-connected）的 3D 编码器 - 解码器和对抗学习结合，以生成单一 2.5D 视图条件下的完整细粒度 3D 结构。该模型网络架构的训练和测试流程如下图所示：