← Back to Homepage

机器人操作技能简述

作者:许博深
2023-12-05

本文为大家简单梳理机器人操作(Robot Manipulation)领域的研究进展,从通用物体抓取、基于概念的部件操作、到端到端通用机器人的探索,介绍当前机器人如何获取通用操作技能的不同技术路线。

1 引言

具身智能(Embodied AI)的核心目标是赋予智能体物理身体,使其能够在真实世界中感知和行动。与互联网AI(如SAM、CLIP、LLMs等)主要完成识别任务不同,具身智能要求智能体具备身体控制能力,直接与物理世界进行交互。

设想这样一个场景:当用户说"我把可乐洒在了桌子上,帮我把它扔掉并拿点东西来清理",家用机器人需要完成以下步骤:

获取通用操作技能(General Manipulation Skills)是具身智能的核心难点,面临以下挑战:

2 通用物体抓取:AnyGrasp

2.1 问题定义:场景级抓取

GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping, Fang et al., CVPR 2020

场景级抓取(Scene-level Grasping)的任务定义为:给定一张RGBD图像作为输入,为场景中每个可抓取点输出可行的6DoF抓取姿态。

场景级抓取任务定义 6DoF抓取姿态

左:场景级抓取任务定义(输入RGBD图像,输出密集6DoF抓取姿态);右:6DoF抓取姿态示意(方向向量V、转角R、夹子宽度M和抓取距离D)

以往工作的核心假设是:更多的物体种类(1000+)比更密集的姿态标注更重要。然而,GraspNet 的作者提出了一个关键观察:抓取成功与否很大程度上取决于被抓取处的局部几何形状,而非物体整体外形。因此,与其在大量物体上标注稀疏姿态,不如在少量物体上标注极密集的抓取姿态。

2.2 数据收集:少物体、密姿态

GraspNet数据集

GraspNet数据集:144个物体上标注超过1B个密集抓取姿态

GraspNet 针对144个具备高质量3D mesh的物体,采集了超过10亿(1B+)的密集抓取姿态数据。具体而言:对3D模型表面采样点后,在每个点的球面上采样方向向量V,再对每个方向采样R、M和D,最后通过力学分析判断该姿态是否可靠。实验验证了这个假设是正确的:更少的物体标注更密集的姿态,可以学到与更多物体相当的局部几何特征。

2.3 抓取任何物体:93%+成功率

AnyGrasp: Robust and Efficient Grasp Perception in Spatial and Temporal Domains, Fang et al., T-RO 2023

基于GraspNet的数据和方法,AnyGrasp进一步在模型设计和时序抓取上进行了拓展,最终实现了93%以上的通用物体抓取成功率,超越此前最优方法21%以上。从demo来看,它能够:

然而,并非所有物体都可以用任意可行姿态来抓取。例如,拿起水杯需要握住杯身而非杯口,拿起热水壶需要握住把手而非壶身。这就引出了下一个问题:如何理解物体部件的功能性,进行更安全、更合理的操作?

3 基于概念的部件操作

3.1 动机:理解物体的可操作部件

Part-Guided 3D RL for Sim2Real Articulated Object Manipulation, RAL 2023

在日常生活中,很多物体不是简单地"抓起来"就行的,而是需要操作特定的部件。例如:开门需要按下把手、开抽屉需要拉住拉手、拧水龙头需要转动阀门。人类天然理解这些"可操作部件"(affordance),但机器人需要通过学习来获取这种概念。

3.2 分割引导的操作方法

Part-Guided框架

Part-Guided 3D RL 完整流程:部件分割 → 点云变换 → 加权采样 → RL策略

Part-Guided 3D RL 的核心思路是将语义部件分割与强化学习相结合:

3.3 跨类别泛化能力

实验结果

仿真环境(左)和真实世界(右)的跨类别操作实验结果

训练集仅使用每个类别5个样本,测试集使用每个类别40个未见样本。实验结果表明,基于部件分割的方法能够在有限数据下学会跨类别的操作策略,并且能够成功从仿真迁移到真实世界(Sim-to-Real)。

3.4 日常生活中的多样操作任务

RLBench任务

RLBench:涵盖浇花、摆桌、插形状、堆叠物体等丰富的日常操作任务

现实生活中的操作任务远不止抓取和部件操作,还包括浇花、摆放餐具、插入物体、堆叠积木等。RLBench提供了一个包含100+任务的基准,展示了通用操作技能的广度和复杂性。

4 端到端通用机器人:RT系列

4.1 RT-1:直接映射图像到控制信号

RT-1: Robotics Transformer for Real-World Control at Scale, Google Robotics, 2023

RT-1数据和场景

RT-1 的数据收集:13万+机器人数据,覆盖700+任务,历时17个月

RT-1 是 Google Robotics 在端到端机器人控制上的突破性工作。其核心思路是:通过大规模数据收集,训练一个 Transformer 模型直接从图像输入映射到机器人控制信号。

4.2 RT-2:视觉-语言-动作大模型

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, Google DeepMind, 2023

RT-2框架

RT-2 框架:互联网VQA数据 + 机器人数据联合微调,输出离散化的机器人动作

RT-2 在 RT-1 的基础上引入了互联网规模的视觉语言数据,核心创新是将机器人动作离散化为文本token,从而可以用VLM的统一框架同时学习视觉理解和机器人控制:

4.3 存在的问题与挑战

尽管RT系列看起来前景光明,但存在显著的问题:

4.4 RT-X与Open X-Embodiment

Open X-Embodiment: Robotic Learning Datasets and RT-X Models, Open X-Embodiment Collaboration, 2023

Open X-Embodiment

Open X-Embodiment:试图通过多机器人平台的数据共享来解决数据瓶颈

RT-X 系列面临的核心未解决问题:

5 总结与讨论

本文介绍了机器人操作技能的三条主要技术路线:

讨论:

参考文献

[1] Fang et al. GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping. CVPR 2020.

[2] Fang et al. AnyGrasp: Robust and Efficient Grasp Perception in Spatial and Temporal Domains. T-RO 2023.

[3] Geng et al. Part-Guided 3D RL for Sim2Real Articulated Object Manipulation. RAL 2023.

[4] James et al. RLBench: The Robot Learning Benchmark & Learning Environment. RAL 2020.

[5] Brohan et al. RT-1: Robotics Transformer for Real-World Control at Scale. 2023.

[6] Brohan et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. 2023.

[7] Open X-Embodiment Collaboration. Open X-Embodiment: Robotic Learning Datasets and RT-X Models. 2023.

[8] Ahn et al. Do As I Can, Not As I Say: Grounding Language in Robotic Affordances. CoRL 2022.



Based on a presentation given on 2023-12-05.

本文阅读量: