paper-notes / VLA / π₀.₇ · 2026

π₀.₇: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

Physical Intelligence · Bo Ai, Ali Amin, Black, Finn, Levine et al. · arXiv 2604.15483 · 2026-04

这篇笔记怎么读

π₀.₇ 的核心思想极简:用更丰富的 prompt(prompt expansion)让一个通才 VLA 变得可操控(steerable)。 它不改架构(依然是 VLM + Action Expert),而是在 prompt 里塞进 subtask 指令 + subgoal 图片 + episode 元数据(速度/质量/错误标签)+ 控制模式, 让同一个模型能被"引导"到不同的行为模式。

阅读路径:先看 §2 差异对照(如果你已读过 π₀/π₀.₅),核心在 §3(Diverse Prompting), 然后 §7 看五组实验,最后 §8 收获。

§1 一句话总结

核心主张

π₀.₇ 通过丰富多模态 prompt conditioning(subtask 指令 + subgoal 图片 + episode 元数据), 让一个 5B 参数的通才 VLA 在无需任务级 fine-tuning 的前提下: (1) 匹配或超越 RL 专家在灵巧任务上的性能, (2) 跟从复杂语言指令, (3) 零样本跨本体迁移(包括从未见过的机器人折衣服), (4) 组合式泛化到训练中未见过的新任务。

展开原文 · Abstract

"We present a new robotic foundation model, called π₀.₇, that can enable strong out-of-the-box performance in a wide range of scenarios. π₀.₇ can follow diverse language instructions in unseen environments, provide zero-shot cross-embodiment generalization, and perform challenging tasks such as operating an espresso machine out of the box at a level of performance that matches much more specialized RL-finetuned models."

— Abstract, p.1
类比 · 从"任务指令"到"完整工单"

以前的 VLA(包括 π₀/π₀.₅)给模型一句话"clean the kitchen"就让它干。 π₀.₇ 像给实习生发一张详细工单:任务描述 + 每步图例 + "要快/要准/别出错"的 KPI 标签 + "用关节控制还是末端控制"。 结果:同一个模型,给不同工单就能表现出截然不同的行为策略。

Figure 1: π₀.₇ overview
Fig 1 · p.1 We introduce π₀.₇, a steerable generalist robot foundation model that can perform dexterous tasks across many tasks, environments, and robots. π₀.₇ 通过丰富 prompt(语言+subgoal图+元数据)让通才模型达到专家级灵巧操作,并能零样本跨本体迁移。

§2 与 π₀ / π₀.₅ / π₀.₆ 的差异

这一节解决什么

π₀.₇ 在模型架构上变化不大,核心创新在数据+prompt层。 对比前几代,用一张表锁死差异。

2.2 差异对照表

层面 π₀(2024-10) π₀.₅(2025-04) π₀.₇(2026-04)
骨干 VLM PaliGemma (SigLIP + Gemma 2.6B) 同 PaliGemma Gemma3 4B (400M SigLIP)
Action Expert 300M flow matching ~300M (同 π₀) 860M flow matching
总参数 ~3B ~3B ~5B
视觉历史 当前帧 MEM 压缩历史 MEM-style:最多 6 历史帧 + 时空压缩
Prompt 内容 task instruction 仅一句话 task + subtask + web co-train task + subtask + subgoal images + episode metadata + control mode
Subgoal 图片 World Model (BAGEL 14B) 生成多视角 subgoal
Episode 元数据 speed / quality / mistake 标签
训练数据 高质量 demo 为主 异质机器人 + web 数据 demo + 次优自主数据 + 失败数据 + RL rollout + 人类视频 + web
推理时调控 仅改 language 仅改 language + subtask metadata prompting + CFG + coaching
Cross-embodiment 有限(task-specific fine-tune) 改善 零样本跨本体折衣服,匹配人类遥操
关键洞察

π₀.₇ 的架构变化是渐进式的(换 Gemma3 + 更大 Action Expert), 真正的质变来自数据侧:(1) 大量吸收次优 / 失败轨迹,(2) 用 episode metadata 消歧, (3) 用 world model 生成视觉 subgoal。一句话:"不是模型变大了,是 prompt 变丰富了"

🧠 理解检查
π₀.₇ 相比 π₀.₅ 最关键的创新在哪个层面?

§3 核心创新:Diverse Prompting

这一节解决什么

π₀.₇ 的核心不在架构,而在怎么组织给模型的输入。 它把 prompt 从一句话 task description 扩展到四个维度的多模态 context: subtask 指令、subgoal 图片、episode 元数据、控制模式。 训练时随机 dropout 各组件,推理时灵活组合。

Figure 3: Prompt overview
Fig 3 · p.6 Prompt overview. π₀.₇ uses diverse modalities of context in the prompt, including subtask instructions, subgoal images, and episode metadata. 两个任务示例:"put food on table" 用了全部四个维度,"fold the shirt" 省略了 subtask(展示 dropout 灵活性)。

3.1 Subtask Instructions

沿用 π₀.₅ 的设计,在 task 级描述 (如"clean the kitchen")之外, 还加入中间粒度的语义子任务 ℓ̂(如"open the fridge door")。 推理时由一个 learned high-level policy(同架构的另一个 VLA)或人类 coaching 产生。

这让模型可以被逐步口头引导(verbally coached)做从未见过的任务, 比如用语言一步一步教机器人往空气炸锅里放红薯。

3.2 Subgoal Images

文字指令说"open the fridge door",但没告诉机器人手该抓哪里。 π₀.₇ 额外加入多视角 subgoal 图片 g = [G¹,...,Gⁿ], 描绘任务完成后世界"应该长什么样"——提供了比文字更精确的空间 grounding

Subgoal 图片由一个基于 BAGEL (14B MoT) 的轻量级 world model 生成。 这个 world model 用 web + 非机器人视频 + 机器人数据混合预训练, 可以在推理时为陌生环境"想象"出合理的未来画面。

与 goal-conditioned policy 的关系

传统 goal-conditioned policy 直接用目标图片做 conditioning。 π₀.₇ 的不同在于 subgoal 是生成的(而非真实的),且只用于提示而非监督—— 训练时 75% 的样本不带 subgoal,模型只在有 subgoal 时把它当 hint,没有时照样能干活。

3.3 Episode Metadata

π₀.₇ 训练数据不再只有高质量 demo,还包括失败轨迹、低速操作、RL 自主探索。 为了让模型区分"好"和"坏"行为,给每条轨迹打三个标签:

Overall speedEpisode 总步数,离散到 500 步间隔(如 1750–2250 → "2000 steps")。更快通常意味着更高质量
Overall quality1–5 分人工标注的执行质量
Mistake布尔值,标记某个片段是否包含错误(抓空、执行错误子任务等)

推理时,永远 prompt "quality: 5, mistake: false, speed: 15th percentile", 引导模型输出最高质量行为。这就是 "steerable" 的由来—— 同一个模型可以通过元数据被推向不同的行为分布。

核心洞察 · 为什么要训练"坏"数据

不放元数据时,更多低质量数据 → 性能下降(Fig 18 左)。 但加了 metadata 后,即使低质量数据越来越多,模型性能持续上升。 因为 metadata 让模型学会了"这条轨迹是怎么做的"和"我该怎么做"的映射, 相当于从反面教材中提取正面知识

🧠 理解检查
Episode metadata(speed/quality/mistake)在 π₀.₇ 中起什么作用?

3.4 Control Mode

支持两种底层控制模式:joint(关节空间)和 ee(末端执行器空间), 通过 prompt 中的文本标识符切换。运行时根据任务特性选择。

3.5 完整 Prompt 示例

<Multi-view observation> <Multi-view subgoals> Task: peel vegetables. Subtask: pick up the peeler. Speed: 8000. Quality: 5. Mistake: false. Control Mode: joint.<Proprioception>

训练时各组件独立 dropout:subgoal 只出现在 25% 的样本中, metadata 整体 drop 15%,每个子字段额外 5% 独立 drop。控制模式不 dropout。

§4 架构(5B 参数)

这一节解决什么

架构相比 π₀.₅/π₀.₆ 变化不大——依然是 VLM backbone + Action Expert 的双塔结构。 主要升级:换了 Gemma3、Action Expert 更大、加了 MEM 视觉历史。

Figure 2: Architecture overview
Fig 2 · p.4 Architecture overview. The π₀.₇ model is a 5B-parameter VLA consisting of a 4B VLM backbone, a MEM-style video history encoder, and a 860M parameter action expert. 三层架构:上层 VLA 主模型(VLM + Action Expert),下层两个辅助模型(High-Level Policy + World Model),异步产生 subtask 和 subgoal。
🪜 跟着推理流程走一遍
1 / 6

第 1 步:观察输入

多路相机拍摄当前场景(前视+双腕+可选后视),MEM-style encoder 把当前帧+最多 6 帧历史压缩成固定数量 token。

第 2 步:High-Level Policy 生成 subtask

左下的高层策略模型(或人类 coaching)根据 task instruction + 当前观察,输出下一个语义子任务,如 "pick up the knife"。

第 3 步:World Model 生成 subgoal 图

BAGEL 14B 根据当前观察 + subtask 指令,"想象"出任务完成后的多视角图片。异步生成,不阻塞主循环。

第 4 步:组装 prompt → VLM 处理

把观察 token + subtask 文本 + subgoal 图 token + metadata 文本拼成一个统一 prompt,喂给 Gemma3 4B VLM。Block-causal attention:视觉双向,文本因果。

第 5 步:Action Expert 去噪

860M Action Expert 接收 VLM 激活 + 噪声 token,用 5 步 flow matching 去噪,输出 50-step action chunk(连续关节值)。

第 6 步:执行 + 异步刷新

执行 chunk 中的前 15–25 步,然后刷新。同时 High-Level Policy 和 World Model 在后台异步更新 subtask / subgoal,保证 50Hz 控制频率。

4.2 VLM Backbone(Gemma3 4B)

VLM backbone 由 Gemma3 4B 初始化,包含一个 400M SigLIP 视觉编码器。 输入最多 4 路相机(前视、双腕、可选后视),每路可带最多 6 帧历史。 VLM 同时处理文本 prompt(task/subtask/metadata)和视觉 token。

使用 Knowledge Insulation (KI) 训练策略:VLM backbone 只用 FAST token 的交叉熵 loss 监督, Action Expert 的 flow matching 梯度不回传到 VLM,保护 VLM 的 language 能力不被破坏。

4.3 MEM-style Vision Encoder

Vision encoder 沿用 MEM 的设计,对历史帧做时间+空间压缩, 输出固定数量的 token(不随历史帧数变化)。 历史帧采样步幅 1 秒,整体以 0.3 概率 dropout。 后视相机也以 0.3 概率 dropout。

Subgoal 图片经过同一个 vision encoder处理,但压缩到与单帧相同的 token 数。 观察图 448×448,subgoal 也 resize 到 448×448。

4.4 Action Expert(860M)

Action Expert 是 860M 参数的小 transformer,用 flow matching 训练, 预测 50 步 action chunk。使用 adaptive RMSNorm 注入 flow matching timestep (类似 DiT 的做法)。

50 个 action token 彼此做双向 attention,也可以 attend VLM backbone 的所有激活。 部署时使用 5 步去噪

与 π₀.₆ 不同的是,π₀.₇ 不再用离散 text token 表示本体状态(proprioception), 而是用线性投影把连续状态映射到 backbone 维度,每个历史步对应一个 token。

4.5 Block-Causal Attention

Attention mask 分块:

观察 + subgoal token双向 attention(彼此可见),subgoal 也可 attend 观察
文本 token因果 attention(左→右),可 attend 前面所有观察/subgoal
Action Expert token双向,可 attend VLM backbone 所有激活
RTC · Real-Time Action Chunking

π₀.₇ 使用 Real-Time Action Chunking (RTC):训练时模拟 0–12 步推理延迟, 对应最大 240ms(50Hz 机器人)。这让模型在有推理延迟时仍然输出平滑轨迹。

§5 训练

5.1 数据:diverse + suboptimal

π₀.₇ 的训练数据是迄今最多样的:

DEMO · 高质量演示
人工遥操作轨迹
多种平台(移动双臂、静态双臂、单臂)、多种环境(lab + in-the-wild)。
AUTONOMOUS · 自主数据
RL / policy rollout
包括 π₀.₆* 的 RL 评估数据、失败 episode、人工干预片段。用 metadata 标注质量。
HUMAN · 人类视频
自我中心人类操作
非机器人的第一人称视频数据,教模型理解物体交互的语义。
WEB · 网络数据
多模态 web 数据
物体定位、属性预测、VQA、视频 captioning 等。只提供图文,不提供动作。
关键实验结论(Fig 7)

metadata + 次优数据 > 只用高质量数据。 去掉 metadata → 更多低质量数据反而降分。加了 metadata → 数据越多越好, 因为模型学会了在 metadata conditioning 下把不同质量策略的知识都用起来。 这本质上是一种 "蒸馏"——通才模型吸收专家级 RL 策略的经验。

5.2 World Model(BAGEL 14B)

Subgoal 图片由一个 BAGEL 14B(Mixture-of-Transformers)world model 生成。 该模型用 web 数据 + 非机器人视频 + 机器人数据做 image editing / generation 预训练, 训练目标是 flow matching loss:

$$\max_\psi\ \mathbb{E}\!\left[\,\mathcal{L}_\text{CFM}\!\left(\,g^*_t,\ g_\psi(o_t,\,\hat\ell_t,\,m)\,\right)\,\right]$$ BAGEL 14B world model · conditional flow matching loss
逐项拆解
$g^*_t$
真实的未来帧(25% 取片段末帧,75% 随机 0–4s)
$g_\psi(o_t, \hat\ell_t, m)$
world model 输出——基于当前观察 $o_t$、subtask 标签 $\hat\ell_t$、metadata $m$ 生成的 subgoal 图
$\mathcal{L}_\text{CFM}$
conditional flow matching loss(图像生成版的 flow MSE)

训练 subgoal 时混合真实未来帧(25% 概率取片段末帧,75% 随机 0–4s)和生成帧, 缓解 train-test mismatch。推理时异步生成 subgoal,不阻塞 VLA 主循环。

5.3 Dropout 策略 + CFG

各 prompt 组件独立 dropout,让模型在推理时可以灵活组合任意子集:

Subgoal images只在 25% 的样本中出现(有 subgoal 时变"逆动力学"问题,训练更快)
Subtask ℓ̂(带 subgoal 时)额外 30% 概率 drop(因为 subgoal 图已经包含语义信息)
Episode metadata 整体15%
每个 metadata 子字段额外 5% 独立 drop
Control mode dropout

推理时可选 Classifier-Free Guidance (CFG), 用 metadata 做 conditioning vs unconditional 的梯度差来加强期望行为:

$$\nabla_a \log \pi(a \mid o, C)\ +\ \beta \cdot \big(\,\nabla_a \log \pi(a \mid o, C)\ -\ \nabla_a \log \pi(a \mid o, C_\text{uncond})\,\big)$$ CFG 去噪步 · $\beta \in \{1.3, 1.7, 2.2\}$ · 灵巧任务提速
逐项拆解
$\nabla_a \log \pi(a \mid o, C)$
有条件 score——给定完整 prompt $C = \{\ell, \hat\ell, g^*, m, c\}$ 时的方向
$\nabla_a \log \pi(a \mid o, C_\text{uncond})$
无条件 score——把 metadata 等条件 drop 掉的方向
$\beta$
guidance 强度:$\beta=0$ 等于普通有条件采样,$\beta>0$ 把"条件带来的差量"放大

§6 推理(Algorithm 1)

这一节解决什么

π₀.₇ 的推理是一个异步多线程流水线: VLA 主循环输出动作,high-level policy 和 world model 在侧线程异步更新 subtask / subgoal。

完整推理流程:

  1. 初始化:拿到初始观察 o₀、task 指令 、metadata m、控制模式 c
  2. High-level policy 或人类给出初始 subtask ℓ̂
  3. World model 生成初始 subgoal:g* ~ p_ψ(g* | o₀, ℓ̂, m)
  4. 组装 context:C = {ℓ, ℓ̂, g*, m, c}
  5. VLA 用 5 步去噪生成 50-step action chunk
  6. 每执行 H̄ ∈ {15, 25} 步后,刷新 action chunk
  7. 异步更新:当 subtask 变化或距上次生成 > 4s 时,world model 重新生成 subgoal
异步设计的好处

World model 和 high-level policy 的推理在独立线程运行, VLA 主循环不等待它们,总是使用最新可用的 subgoal 和 subtask。 这保证了 50Hz 的控制频率不被打断。

6.2 Classifier-Free Guidance

对 metadata 做 CFG:每步去噪时同时跑一次 conditional 和一次 unconditional(drop 掉 metadata), 用加权差值推动动作分布向"高质量、高速、无错误"方向偏移。 在灵巧任务(espresso machine、laundry folding)中效果显著。

§7 实验亮点

这一节解决什么

π₀.₇ 的实验量很大(20+ 页),这里提炼五组最核心的结论。

7.1 Out-of-Box Dexterity(Fig 6)

Figure 6: Out-of-box dexterity
Fig 6 · p.9 Out-of-the-box dexterity: π₀.₇ can perform a wide range of highly dexterous tasks directly out of the box. 上排:π₀.₇ vs π₀.₆* RL 专家(每个任务一个专家)。下排:π₀.₇ vs π₀.₆ SFT 专家。绿色=π₀.₇,黄色=专家。单个通才模型在所有任务上同时达到专家级别。

一个 π₀.₇ 通才模型 vs 多个 π₀.₆* RL 专家(每个任务各一个):

Laundry (T-Shirts)π₀.₇ 成功率 ≈ RL 专家,吞吐量更高
Box Buildingπ₀.₇ 吞吐量超过 RL 专家
Make Espressoπ₀.₇ ≈ RL 专家
Make PB Sandwich / Slice Zucchini / Peel Vegetablesπ₀.₇ ≈ SFT 专家

关键:这是单个通才模型在所有任务上同时达到专家级别,且不需要 task-specific post-training。

7.2 Instruction Following(Fig 9–11)

4 个未见过的厨房 + 2 个未见过的卧室中测试, 每个场景给 3–6 步 open-ended 指令。π₀.₇ 大幅超越 π₀.₅ 和 π₀.₆。

更令人印象深刻的是反数据集偏差(Fig 11): 训练数据中"碗总是扔垃圾桶、盘子放洗碗池", 但 prompt "reverse bussing"(反过来做)时 π₀.₇ 能正确执行—— 说明它真的在跟随指令,而不是复现数据分布。

7.3 Cross-Embodiment Transfer(Fig 12–13)

Figure 12: Cross-embodiment transfer
Fig 12 · p.12 Cross-embodiment transfer. Left: simpler rearrangement tasks. Right: dexterous laundry folding on UR5e. 左:简单重排任务跨本体迁移(π₀.₅/₀.₆/₀.₇ 都能做)。右:灵巧叠衣从静态双臂→UR5e,π₀.₇ + World Model (GC) 效果最好,虚线是人类遥操基线。

最令人兴奋的实验:在UR5e 双臂上折衣服—— π₀.₇ 从未见过 UR5e 的叠衣数据(训练数据全在小型静态双臂上收集)。

π₀.₇ 衬衫折叠Task progress 85.6%,Success rate 80%
人类遥操(首次用 UR5e)Task progress 90.9%,Success rate 80.6%

π₀.₇ 接近10 位经验最丰富的遥操人员首次使用 UR5e 时的水平。 而且模型发明了与源机器人不同的策略:在小臂上人类用倾斜抓取, π₀.₇ 在 UR5e 上改用垂直抓取(更适合大臂的运动学约束)。

实用意义

灵巧技能可以从轻量、容易遥操的平台上采集数据, 然后零样本迁移到高载荷工业臂上—— 后者采集数据的成本高得多。这是 π₀.₇ 最有工业价值的发现之一。

7.4 Compositional Generalization(Fig 15–17)

两种组合泛化路径:

(a) 短时:零样本新任务(Fig 17)—— 没有专门数据也能做法式压壶、往电饭锅舀米、用抹布擦物品、旋转铰接物体。 模型通过重组训练中学到的子技能完成新任务。

(b) 长时:Language Coaching → 自主执行(Fig 14–16)—— 人类用步进指令教 π₀.₇ 做空气炸锅、烤面包等多阶段新任务。 Coaching 数据可直接用于训练一个 high-level policy, 之后模型完全自主执行这些任务,性能与 coaching 时相当。 这意味着:不需要额外遥操数据,只靠语言就能教新技能

7.5 Scaling with Data Diversity(Fig 18)

Figure 18: Scaling with diverse context and data
Fig 18 · p.14 Scaling of generalization performance with diverse context and data. 左:有 metadata(绿线)时数据越多越好;无 metadata(红线)时数据越多反而越差。右:去掉最高多样性 20% 数据掉分最多。

两个关键消融:

Left:在 laundry 任务上,训练数据从 30% → 100%(包含越来越多低质量数据), 无 metadata 的模型反而变差,有 metadata 的模型持续变好。 → Metadata 让模型 design more scalable

Right:去掉最高多样性 20% 的数据比随机去掉 20% 掉分更多。 → 任务多样性(而非简单的数据量)是组合泛化的关键驱动力。

🧠 理解检查
π₀.₇ 在 UR5e 双臂上零样本折衣服的表现如何?

§8 收获与局限

核心收获

1. Prompt expansion 是关键——不是模型变大了,而是给模型的"上下文"变丰富了。 Subgoal 图 + metadata + subtask 三板斧让一个通才 VLA 变得可操控。
2. 次优数据是宝藏——只要有 metadata 消歧,失败/低速/低质量数据反而提升性能
3. 跨本体迁移成真——折衣服这种高灵巧任务能从小臂零样本迁移到 UR5e,且模型自动发明适合目标本体的策略。
4. 语言 Coaching 是新的数据采集方式——无需遥操就能教新技能。

局限

1. 未见任务成功率仍低于已见任务——已见任务 >90%,未见任务/未见机器人组合约 60–80%。
2. 难以界定"真正新颖"——训练集太大太多样,很难确定某个泛化能力是真正 zero-shot 还是"重混"了相似数据中的技能。 论文自己也承认这一点,并将其定义为 compositional generalization
3. World model 质量依赖——subgoal 图像生成错误时会误导策略, 目前没有自动检测/拒绝低质量 subgoal 的机制。
4. 闭源——与 π₀.₅ 的 openpi 不同,π₀.₇ 未开源(截至 2026-04)。

对 VLA 研究的启示

π₀.₇ 表明 VLA 正在走 LLM 的老路:scaling law 不只是模型变大,也是 context 变丰富。 就像 GPT-4 加了 system prompt / few-shot / tool use,π₀.₇ 加了 subgoal / metadata / coaching。 对后续研究者来说,如何设计更好的 robot prompt 可能比设计更好的架构更重要