RT-2 · Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

§ 01

一句话总结

这篇论文在做什么

RT-2 第一次证明了一个惊人的简单想法：把大规模视觉-语言模型（PaLI-X 55B / PaLM-E 12B）直接微调，让它输出的"文字"不是自然语言，而是机器人动作的离散编码。就这么一改，模型就能直接控制机器人——而且继承了 VLM 从数十亿网页学到的语义理解、推理、甚至数学能力。

类比：如果 VLM 是一个读过全世界书的大脑，RT-2 的贡献是给这个大脑接上了手——让"理解世界"的能力直接变成"操控世界"的能力。

Fig 1 · p.2 RT-2 overview: robot actions as another language, co-fine-tuned with web-scale VQA data. RT-2 总览：把动作表示为文本 token，与 Internet VQA 数据一起 co-fine-tune

§ 02

核心思路

承上 · 一个简单到不可思议的想法

上一节看到了 RT-2 的全貌。现在拆开看它的核心洞察——其实就三句话：(1) VLM 已经会看图说话了；(2) 机器人动作可以写成一串数字；(3) 那就让 VLM "说"动作数字就行了。

2.1 VLM → VLA：从说话到做事

展开原文 · 核心 insight

"We explore an approach that is both simple and surprisingly effective: we directly train vision-language models designed for open-vocabulary visual question answering and visual dialogue to output low-level robot actions, along with solving other Internet-scale vision-language tasks."

— §1, p.2

为什么这么做

2023 年之前，把 VLM 用在机器人上的主流思路是分层：VLM 做高层规划（"先拿杯子"），低层控制器做执行。问题是：低层控制器没有 Internet 预训练的语义先验，泛化能力差。

RT-2 的革命性在于：取消分层，直接端到端。VLM 不只是"大脑"，它同时也是"脊髓"——直接输出低层 Cartesian 动作。

2.2 动作 = Token

怎么让 VLM 说"动作语言"

机器人动作空间：6DoF 末端位移 + 夹爪开合 + 终止信号 = 8 维。每个连续维度被均匀切成 256 个 bin。这样一个动作就变成 8 个整数，比如 "1 128 91 241 5 101 127"。

Token 映射方式因 VLM 而异

PaLI-X：整数 0-999 各有自己的 token（vocabulary 里已有），所以 action bin 直接映射到对应整数 token。

PaLM-E：没有现成的整数 token。解法和后来的 OpenVLA 一样——覆盖 vocabulary 中最不常用的 256 个 token。

动作字符串拼接格式："terminate Δpos_x Δpos_y Δpos_z Δrot_x Δrot_y Δrot_z gripper_extension"

2.3 Co-Fine-Tuning · 最重要的训练决定

为什么不能只用 robot 数据微调

如果只用 robot 数据微调 VLM，模型会灾难性遗忘——忘掉从 Internet 学到的语义知识。RT-2 的解法是共同微调：每个 batch 同时包含 web VQA 数据和 robot 动作数据，通过增大 robot 数据的采样权重来平衡。

展开原文 · Co-fine-tuning

"A key technical detail of the training recipe that improves robot performance is co-fine-tuning robotics data with the original web data instead of naïve finetuning on robot data only. We notice that co-fine-tuning leads to more generalizable policies since the policies are exposed to both abstract visual concepts from web scale data and low level robot actions during fine-tuning."

— §3.2, p.6

🧠 理解检查

RT-2 怎么让 55B VLM 既能理解 Internet 概念，又能输出机器人动作？

§ 03

架构与训练

承上 · 核心思路清楚了，看具体实现

上一节讲了三个核心决定：VLM 直接输出动作、动作离散化为 token、用 co-fine-tuning 保留 Internet 知识。这一节看具体用了哪些 VLM、训练细节、以及怎么做到实时推理。

3.1 两个 VLM 骨干

	RT-2-PaLI-X	RT-2-PaLM-E
基座 VLM	PaLI-X（Google，闭源）	PaLM-E（Google，闭源）
参数量	5B / 55B	12B
视觉编码器	ViT-22B	ViT-4B
语言模型	UL2 32B	PaLM 8B
预训练数据	主要视觉 VQA/Caption	混合 VQA + 语言 + 代码
Action token 映射	整数直接映射 (0-999 已有 token)	覆盖最不常用的 256 个 token
泛化强项	符号理解、人类识别	数学推理（得益于 PaLM 语言能力）

3.2 动作离散化

动作空间 · 8 维

维度：6DoF 末端位移（Δx, Δy, Δz, Δroll, Δpitch, Δyaw）+ 夹爪开合 + 终止指令
离散化：每维 256 bin，均匀分割
输出格式："terminate Δpos_x Δpos_y Δpos_z Δrot_x Δrot_y Δrot_z gripper"
示例："1 128 91 241 5 101 127"（terminate=1 表示继续执行）

3.3 输出约束 · Output Constraint

防止模型"说废话"

VLM 本来可以输出任意文本。但当 prompt 是 robot 任务格式时（"Q: what action should the robot take to [task]? A:"），必须确保输出只从 256 个动作 token 中采样。实现方式：在 decoding 时 mask 掉非动作 token 的 logits。

3.4 实时推理

部署挑战 · 55B 怎么实时跑

55B 模型无法在机器人本地 GPU 上运行。RT-2 的解法：部署在多 TPU 云服务上，机器人通过网络请求动作。

频率：RT-2-PaLI-X-55B → 1-3 Hz；RT-2-PaLI-X-5B → ~5 Hz。足以控制 Google 的移动操作机器人（非高频灵巧操作）。

§ 04

泛化实验

承上 · 能跑了，但泛化能力是关键

RT-2 的核心主张不是"能控制机器人"（RT-1 早就能），而是VLM 的 Internet 预训练带来了更强的泛化能力。这一节看 6000 次评测的结果：seen tasks、unseen objects/backgrounds/environments。

4.1 Seen Tasks · 和 RT-1 打平

在训练时见过的 200+ 任务上，RT-2 和 RT-1（35M 参数，从头训练）表现接近。这说明 VLM 预训练不损害已见任务的性能——但也没有明显提升。

4.2 Unseen 泛化 · RT-2 碾压

Fig 4 · p.8 Overall performance of RT-2 and baselines across seen and unseen evaluations. RT-2 在 seen tasks 与 RT-1 打平，但在所有 unseen 类别上碾压——平均高约 2 倍

关键结论

RT-2 vs baseline 的差距在 unseen 场景下最大。这精确证明了论文的核心主张：Internet 预训练带来的泛化能力可以直接迁移到机器人控制。不是让机器人学更多的 task，而是让它学更强的 representation。

§ 05

涌现能力

承上 · 比泛化更惊人的是涌现

上一节看到 RT-2 在 unseen 物体/背景/环境上泛化更好——这还算"预期之内"。但接下来的发现才是 RT-2 真正震撼学界的地方：模型展现出了robot 数据中从未出现过的能力。这些能力纯粹来自 Internet 预训练——作者称之为涌现能力。

Figure 2: Emergent capabilities examples

Fig 2 · p.5 RT-2 emergent capabilities: symbol understanding, reasoning, human recognition. RT-2 涌现能力示例：这些任务在 robot 数据中从未出现过

5.1 符号理解 · Symbol Understanding

robot 数据里没有"3"这个概念

指令："move apple to 3"——robot 训练数据中从未出现过数字概念。但 RT-2 能把苹果放到写有数字 3 的位置，因为 VLM 从 Internet 学过"3 长什么样"。

更惊人的："place orange in matching bowl"——模型理解颜色匹配的概念，把橙色水果放进橙色碗里。

5.2 推理 · Reasoning

机器人会做数学了？

指令："move banana to the sum of two plus one"——模型先"算出"答案是 3，然后把香蕉移到数字 3 的位置。这个推理过程来自 PaLM 的数学能力（PaLM-E 版在数学推理上更强）。

其他推理示例："move the apple to the cup with the same color"（颜色推理）、"mueve la manzana al vaso verde"（多语言理解）。

5.3 人类识别 · Human Recognition

认人 + 做事

指令："move the coke can to the person with glasses"——模型需要 (1) 识别场景中戴眼镜的人，(2) 把可乐移到那个方向。robot 数据中从未有过"识别人类属性"的任务。

Figure 6: Emergent skills quantitative + ablations

Fig 6 · p.10 (a) Emergent skill quantitative evaluation. (b) Ablations: parameter count + training strategy. 左：涌现能力量化评测，RT-2 领先 baseline 3 倍以上。右：消融实验，co-fine-tune + 大模型 = 最强

🧠 理解检查

"move banana to the sum of two plus one"——RT-2 能执行这个指令。这个能力从哪来？

§ 06

消融实验

承上 · 哪些因素真正重要

前面看到 RT-2 效果好，但是因为模型大？因为 co-fine-tuning？还是因为 VLM 预训练？这一节的消融实验精确回答了这些问题。

6.1 模型大小的影响

更大 = 更好（但不是决定性的）

PaLI-X-55B vs PaLI-X-5B：55B 在 unseen 泛化上一致更好，但差距不算巨大。关键不在大小，而在有没有 VLM 预训练——从头训练的 5B 几乎完全失败。

6.2 Co-Fine-Tuning vs Fine-Tuning vs Scratch

SCRATCH · 从头训练

几乎完全失败

5B 从头训 → unseen 接近 0%。55B 从头训 → 也非常差。结论：没有 VLM 预训练，再大的模型也不行。

FINE-TUNE · 只用 robot 数据

可以，但不够好

有 VLM 预训练的底子，只用 robot 数据微调也能工作。但泛化能力弱于 co-fine-tune——灾难性遗忘。

CO-FINE-TUNE · 混合数据

最佳方案

Web + Robot 数据混合训练。所有 unseen 类别上一致最好。代价：训练慢一些（多了 web 数据的 forward pass）。

TAKEAWAY · 核心结论

预训练 > 模型大小

5B + co-fine-tune >> 55B + scratch。VLM 预训练是不可替代的——它不是"锦上添花"，而是"从无到有"。

§ 07

Chain-of-Thought

承上 · 能不能让机器人"先想再做"

前面看到 RT-2 已经能做推理任务（"move to the sum of two plus one"）。但那是 implicit reasoning——模型内部隐式推理。这一节 RT-2 团队尝试了显式推理：让模型先输出一段自然语言"计划"（Plan），再输出动作 token（Action）。

Fig 7 · p.11 RT-2 with chain-of-thought: model generates both a Plan and an Action. Chain-of-Thought 示例：模型先输出 Plan（自然语言），再输出 Action（动作 token）

怎么实现 CoT

训练数据增强：在动作数据中加入 "Plan" 字段。例如：

Instruction: I'm hungry. → Plan: pick rxbar chocolate. Action: 1 128 124 136 121 158 111 255.

只需要微调几百步，模型就能学会先输出计划再输出动作。

CoT 的意义

这个实验虽然是初步探索，但它暗示了一个重要方向：VLA 可以同时做高层规划和低层控制，在一个统一的模型中。这正是后来 SayCan → PaLM-E → π₀.₇ 的 diverse prompting 所延续的思路。

§ 08

局限性 & RT-2 → OpenVLA → π₀

承上 · RT-2 的遗产和局限

RT-2 是 VLA 的开山之作，但它也有明显的结构性局限——每一个都催生了后续工作的改进方向。

LIMITATION · 闭源

PaLI-X / PaLM-E 不公开

权重、代码、训练细节全部闭源。社区无法复现、无法微调。→ OpenVLA 用开源 Prismatic-7B 解决。

LIMITATION · 新运动不会

只迁移语义，不迁移物理技能

Internet 预训练带来语义泛化（认识新物体），但不带来新的物理运动技能——模型仍然只会 pick-and-place。→ π₀ 通过更丰富的灵巧操作数据突破。

LIMITATION · 推理速度

55B 需要 TPU 云

不能在机器人本地运行，实时控制受网络延迟影响。1-3Hz 对灵巧操作远远不够。→ OpenVLA 7B + 4-bit 量化在本地 GPU 跑 3-6Hz。

LIMITATION · 离散动作精度

256 bin 不够精细

和 OpenVLA 一样的 256 bin 离散化。精细操作需要更高精度。→ π₀ 用 Flow Matching 输出连续动作，精度无上限。

8.2 RT-2 → OpenVLA → π₀ 的演进

	RT-2 (2023)	OpenVLA (2024)	π₀ (2024)
核心贡献	证明 VLM→VLA 可行	开源 + fine-tuning 生态	连续动作 + 灵巧操作
参数量	55B (闭源)	7B (开源)	3B+860M (部分开源)
动作表示	离散 token	离散 token	连续 (Flow Matching)
Co-fine-tuning	✅ VLM 预训练 + robot	❌ 只用 robot 微调	✅ 两阶段 (discrete pre + flow post)
语义泛化	最强（co-FT 保留 Internet 知识）	弱于 RT-2（无 co-FT）	中等（PaliGemma 底子）
灵巧操作	❌ 只能 pick-and-place	❌ 只能 pick-and-place	✅ 折叠、擦桌、双臂
可部署性	❌ 需要 TPU 云	✅ 单 GPU + 量化	✅ 优化推理

你的知识地图

到这里，你已经理解了 VLA 的完整技术演进：

RT-2（提出 VLM→VLA 范式 + co-fine-tuning）→ OpenVLA（开源化 + fine-tuning 最佳实践）→ π₀ 系列（Flow Matching 连续动作 + 灵巧操作 + diverse prompting）。

三篇论文是同一条技术主线的三个阶段：概念验证 → 开源平民化 → 性能突破。

🧠 理解检查

OpenVLA (7B) 在 29 个任务上整体超过 RT-2-X (55B)，但在"语义泛化"上输了。为什么？

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

一句话总结

核心思路

2.1 VLM → VLA：从说话到做事

2.2 动作 = Token

2.3 Co-Fine-Tuning · 最重要的训练决定

架构与训练

3.1 两个 VLM 骨干

3.2 动作离散化

3.3 输出约束 · Output Constraint

3.4 实时推理

泛化实验

4.1 Seen Tasks · 和 RT-1 打平

4.2 Unseen 泛化 · RT-2 碾压

涌现能力

5.1 符号理解 · Symbol Understanding

5.2 推理 · Reasoning

5.3 人类识别 · Human Recognition

消融实验

6.1 模型大小的影响

6.2 Co-Fine-Tuning vs Fine-Tuning vs Scratch

Chain-of-Thought

局限性 & RT-2 → OpenVLA → π₀

8.2 RT-2 → OpenVLA → π₀ 的演进