使自动驾驶汽车、机器人和其他应用程序了解三维世界的技术

如果你曾经在野外看到过一辆自动驾驶汽车，你可能会怀疑它上面的旋转气缸。

这是一个“激光雷达传感器”，这是什么让汽车导航世界。通过发送红外线脉冲并测量它们从物体上反弹所需的时间，传感器创建了一个“点云”，建立了汽车周围环境的三维快照。

三维世界的技术

要理解原始的点云数据是很困难的，而且在机器学习的时代之前，它传统上需要经过高度训练的工程师们乏味地指定他们想要通过手工获取哪些品质。但是在麻省理工学院计算机科学与人工智能实验室(CSAIL)发表的一系列新论文中，研究人员表明他们可以使用深度学习自动处理点云用于广泛的三维成像应用。

“在今天的计算机视觉和机器学习方面，90%的进步只涉及二维图像麻省理工学院教授贾斯汀·所罗门是博士生王悦领导的新系列论文的资深作者，他说：“我们的工作旨在解决一项基本需求，即更好地代表三维世界，不仅适用于自动驾驶，而且适用于任何需要理解三维形状的领域。”

以前的大多数方法在从需要获取的数据中捕获模式方面并不特别成功。有意义的信息空间中的三维点。但是在研究小组的一篇论文中，他们展示了他们用一种叫做动态图卷积神经网络的神经网络来分析点云的“EdgeConv”方法，使他们能够对单个对象进行分类和分割。

没有参与这项工作的丰田研究所(Toyota Research Institute)机器学习科学家瓦迪姆·科尔(Wadim Kehl)说，“通过构建相邻点的‘图表’，该算法可以捕获分层模式，从而推断出多种类型的泛型信息，这些信息可以被大量下游任务使用。”

除了开发EdgeConv之外，团队还探索了点云处理的其他具体方面。例如，一个挑战是，大多数传感器在三维世界中移动时会改变视角；每次我们对同一物体进行新的扫描时，它的位置可能与我们上次看到它时不同。要将多个点云合并成一个世界的详细视图，您需要在一个名为“注册”的过程中对齐多个三维点。

登记对于从卫星数据到医疗程序等多种成像形式都是至关重要的。例如，当医生需要对病人进行多次磁共振成像扫描时，注册才能使扫描对齐以查看哪些变化。

“注册使我们能够将来自不同来源的三维数据集成到一个共同的坐标系中，”王说。“没有它，我们实际上就无法从所有这些已经开发的方法中获得有意义的信息。”

所罗门和王的第二篇论文演示了一种名为“深度最近点”(DCP)的新的配准算法，该算法可以更好地找到点云的区分模式、点和边缘(称为“局部特征”)，以便将其与其他点对齐。云彩...这对于让自动驾驶汽车定位在场景中(“定位”)以及机器人手定位和抓取单个物体等任务尤为重要。

DCP的一个局限性是它假设我们可以看到一个完整的形状，而不是只看到一侧。这意味着它无法处理更困难的任务，即对形状的部分视图进行对齐(称为“部分对部分注册”)。因此，在第三篇论文中，研究人员提出了一种改进的算法，他们称之为部分注册网络(PRNet)。

所罗门说，与二维图像和照片相比，现有的三维数据往往是“相当混乱和非结构化的”。他的团队试图找出如何从所有杂乱无章的三维数据中获取有意义的信息，而不需要现在许多机器学习技术所需要的受控环境。

DCP和PRNet成功背后的一个关键观察是，点云处理的一个关键方面是上下文。点云A上的几何特征暗示了点云B对齐的最佳方法，可能与点云C对齐所需的特征不同。例如，在部分注册中，一个点云中的形状的一个有趣的部分可能在另一个点云中不可见--这使得它对注册毫无用处。

王说，这个团队的工具已经被计算机视觉界和其他领域的许多研究人员所使用。甚至物理学家们也在把它们用于CSAIL团队从未考虑过的应用：粒子物理学。

展望未来，研究人员希望使用这些算法来处理真实世界的数据，包括从自动驾驶汽车中收集到的数据。王说，他们还计划探索利用自我监督学习训练系统的潜力，以减少所需的人工注释量。

中国雷锋站走入永年区刘窑村互助院社会实践心得