机器人操作技能简述

作者：许博深
2023-12-05

本文为大家简单梳理机器人操作（Robot Manipulation）领域的研究进展，从通用物体抓取、基于概念的部件操作、到端到端通用机器人的探索，介绍当前机器人如何获取通用操作技能的不同技术路线。

1 引言

具身智能（Embodied AI）的核心目标是赋予智能体物理身体，使其能够在真实世界中感知和行动。与互联网AI（如SAM、CLIP、LLMs等）主要完成识别任务不同，具身智能要求智能体具备身体控制能力，直接与物理世界进行交互。

设想这样一个场景：当用户说"我把可乐洒在了桌子上，帮我把它扔掉并拿点东西来清理"，家用机器人需要完成以下步骤：

规划：如何将这个复杂任务分解为可执行的子任务？ — LLM已经做得很好
导航：如何移动到目标物体附近？ — SLAM技术也已成熟
操作：如何拿起和放下物体？ — 核心挑战所在

获取通用操作技能（General Manipulation Skills）是具身智能的核心难点，面临以下挑战：

复杂的物理交互规律
物体形状和材质的多样性
高精度的控制要求

2 通用物体抓取：AnyGrasp

2.1 问题定义：场景级抓取

GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping, Fang et al., CVPR 2020

场景级抓取（Scene-level Grasping）的任务定义为：给定一张RGBD图像作为输入，为场景中每个可抓取点输出可行的6DoF抓取姿态。

左：场景级抓取任务定义（输入RGBD图像，输出密集6DoF抓取姿态）；右：6DoF抓取姿态示意（方向向量V、转角R、夹子宽度M和抓取距离D）

以往工作的核心假设是：更多的物体种类（1000+）比更密集的姿态标注更重要。然而，GraspNet 的作者提出了一个关键观察：抓取成功与否很大程度上取决于被抓取处的局部几何形状，而非物体整体外形。因此，与其在大量物体上标注稀疏姿态，不如在少量物体上标注极密集的抓取姿态。

2.2 数据收集：少物体、密姿态

GraspNet数据集：144个物体上标注超过1B个密集抓取姿态

GraspNet 针对144个具备高质量3D mesh的物体，采集了超过10亿（1B+）的密集抓取姿态数据。具体而言：对3D模型表面采样点后，在每个点的球面上采样方向向量V，再对每个方向采样R、M和D，最后通过力学分析判断该姿态是否可靠。实验验证了这个假设是正确的：更少的物体标注更密集的姿态，可以学到与更多物体相当的局部几何特征。

2.3 抓取任何物体：93%+成功率

AnyGrasp: Robust and Efficient Grasp Perception in Spatial and Temporal Domains, Fang et al., T-RO 2023

基于GraspNet的数据和方法，AnyGrasp进一步在模型设计和时序抓取上进行了拓展，最终实现了93%以上的通用物体抓取成功率，超越此前最优方法21%以上。从demo来看，它能够：

抓取300+种未见过的物体
完成动态场景下的鱼类抓取
实现桌面级的通用抓取

然而，并非所有物体都可以用任意可行姿态来抓取。例如，拿起水杯需要握住杯身而非杯口，拿起热水壶需要握住把手而非壶身。这就引出了下一个问题：如何理解物体部件的功能性，进行更安全、更合理的操作？

3 基于概念的部件操作

3.1 动机：理解物体的可操作部件

Part-Guided 3D RL for Sim2Real Articulated Object Manipulation, RAL 2023

在日常生活中，很多物体不是简单地"抓起来"就行的，而是需要操作特定的部件。例如：开门需要按下把手、开抽屉需要拉住拉手、拧水龙头需要转动阀门。人类天然理解这些"可操作部件"（affordance），但机器人需要通过学习来获取这种概念。

3.2 分割引导的操作方法

Part-Guided 3D RL 完整流程：部件分割 → 点云变换 → 加权采样 → RL策略

Part-Guided 3D RL 的核心思路是将语义部件分割与强化学习相结合：

部件分割：从第一人称RGBD图像中分割出可操作部件（如把手、底座等）
点云变换：将分割结果转换为3D点云表示
加权采样：根据不确定性估计进行加权采样，获取关键部件点
RL策略：基于PointNet编码的部件点云，通过强化学习训练操作策略

3.3 跨类别泛化能力

仿真环境（左）和真实世界（右）的跨类别操作实验结果

训练集仅使用每个类别5个样本，测试集使用每个类别40个未见样本。实验结果表明，基于部件分割的方法能够在有限数据下学会跨类别的操作策略，并且能够成功从仿真迁移到真实世界（Sim-to-Real）。

3.4 日常生活中的多样操作任务

RLBench：涵盖浇花、摆桌、插形状、堆叠物体等丰富的日常操作任务

现实生活中的操作任务远不止抓取和部件操作，还包括浇花、摆放餐具、插入物体、堆叠积木等。RLBench提供了一个包含100+任务的基准，展示了通用操作技能的广度和复杂性。

4 端到端通用机器人：RT系列

4.1 RT-1：直接映射图像到控制信号

RT-1: Robotics Transformer for Real-World Control at Scale, Google Robotics, 2023

RT-1 的数据收集：13万+机器人数据，覆盖700+任务，历时17个月

RT-1 是 Google Robotics 在端到端机器人控制上的突破性工作。其核心思路是：通过大规模数据收集，训练一个 Transformer 模型直接从图像输入映射到机器人控制信号。

数据规模：130K+ 机器人轨迹数据，覆盖 700+ 任务
数据收集时间：17个月的遥操作数据采集
核心突破：首次实现端到端的感知-控制系统在真实场景中大规模部署

4.2 RT-2：视觉-语言-动作大模型

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, Google DeepMind, 2023

RT-2 框架：互联网VQA数据 + 机器人数据联合微调，输出离散化的机器人动作

RT-2 在 RT-1 的基础上引入了互联网规模的视觉语言数据，核心创新是将机器人动作离散化为文本token，从而可以用VLM的统一框架同时学习视觉理解和机器人控制：

数据：约1B互联网图文对 + 130K机器人轨迹数据混合训练
模型：基于ViT + LLM的多模态大模型，输出末端控制器的位移和旋转
优势：通过互联网数据的世界知识，提升了对新物体和新指令的泛化能力

4.3 存在的问题与挑战

尽管RT系列看起来前景光明，但存在显著的问题：

不安全：机械臂动作颤抖，存在安全隐患
速度慢：推理延迟导致执行速度比人类慢8倍
幻觉问题：继承了LLM的幻觉问题，可能产生不合理的动作
泛化有限：换一个环境就难以达到数据收集场景的效果

4.4 RT-X与Open X-Embodiment

Open X-Embodiment: Robotic Learning Datasets and RT-X Models, Open X-Embodiment Collaboration, 2023

Open X-Embodiment：试图通过多机器人平台的数据共享来解决数据瓶颈

RT-X 系列面临的核心未解决问题：

如何大规模扩展机器人数据？ 遥操作成本高昂，130K数据已耗时17个月
如何从互联网数据直接学习动作技能？ VQA数据中缺乏物理交互信息
如何适应新型机器人平台？ 在一个平台上训练的模型难以迁移到其他机器人

5 总结与讨论

本文介绍了机器人操作技能的三条主要技术路线：

通用物体抓取（AnyGrasp）：通过密集姿态标注和局部几何学习，实现93%+的通用抓取成功率
基于概念的部件操作：通过部件分割引导强化学习，实现对功能性部件的理解和操作
端到端通用机器人（RT系列）：通过大规模数据和多模态大模型，尝试实现从感知到控制的端到端学习

讨论：

如何与世界交互并持续学习？ 当前的模型都是离线训练后部署，缺乏在线学习和持续适应的能力。
什么类型的机器人更合适？ 人形机器人、夹爪、灵巧手、柔性机械臂各有优劣，针对不同场景可能需要不同的本体设计。
是否真的需要端到端方案？ 从GraspNet vs RT-2的对比来看，视觉-机器人解耦的方案在精度和泛化性上可能更优，端到端方案的道路仍然漫长。
如何实现跨本体迁移（X-Embodiment）？ 不同机器人的动作空间和物理特性差异巨大，如何让一个算法适用于多种机器人仍是开放问题。

参考文献

[1] Fang et al. GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping. CVPR 2020.

[2] Fang et al. AnyGrasp: Robust and Efficient Grasp Perception in Spatial and Temporal Domains. T-RO 2023.

[3] Geng et al. Part-Guided 3D RL for Sim2Real Articulated Object Manipulation. RAL 2023.

[4] James et al. RLBench: The Robot Learning Benchmark & Learning Environment. RAL 2020.

[5] Brohan et al. RT-1: Robotics Transformer for Real-World Control at Scale. 2023.

[6] Brohan et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. 2023.

[7] Open X-Embodiment Collaboration. Open X-Embodiment: Robotic Learning Datasets and RT-X Models. 2023.

[8] Ahn et al. Do As I Can, Not As I Say: Grounding Language in Robotic Affordances. CoRL 2022.

Based on a presentation given on 2023-12-05.

本文阅读量：次