π₀.₇: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

Physical Intelligence · Bo Ai, Ali Amin, Black, Finn, Levine et al. · arXiv 2604.15483 · 2026-04

这篇笔记怎么读

π₀.₇ 的核心思想极简：用更丰富的 prompt（prompt expansion）让一个通才 VLA 变得可操控（steerable）。它不改架构（依然是 VLM + Action Expert），而是在 prompt 里塞进 subtask 指令 + subgoal 图片 + episode 元数据（速度/质量/错误标签）+ 控制模式，让同一个模型能被"引导"到不同的行为模式。

阅读路径：先看 §2 差异对照（如果你已读过 π₀/π₀.₅），核心在 §3（Diverse Prompting），然后 §7 看五组实验，最后 §8 收获。

§1 一句话总结

核心主张

π₀.₇ 通过丰富多模态 prompt conditioning（subtask 指令 + subgoal 图片 + episode 元数据），让一个 5B 参数的通才 VLA 在无需任务级 fine-tuning 的前提下： (1) 匹配或超越 RL 专家在灵巧任务上的性能， (2) 跟从复杂语言指令， (3) 零样本跨本体迁移（包括从未见过的机器人折衣服）， (4) 组合式泛化到训练中未见过的新任务。

展开原文 · Abstract

"We present a new robotic foundation model, called π₀.₇, that can enable strong out-of-the-box performance in a wide range of scenarios. π₀.₇ can follow diverse language instructions in unseen environments, provide zero-shot cross-embodiment generalization, and perform challenging tasks such as operating an espresso machine out of the box at a level of performance that matches much more specialized RL-finetuned models."

— Abstract, p.1

类比 · 从"任务指令"到"完整工单"

以前的 VLA（包括 π₀/π₀.₅）给模型一句话"clean the kitchen"就让它干。 π₀.₇ 像给实习生发一张详细工单：任务描述 + 每步图例 + "要快/要准/别出错"的 KPI 标签 + "用关节控制还是末端控制"。结果：同一个模型，给不同工单就能表现出截然不同的行为策略。

Fig 1 · p.1 We introduce π₀.₇, a steerable generalist robot foundation model that can perform dexterous tasks across many tasks, environments, and robots. π₀.₇ 通过丰富 prompt（语言+subgoal图+元数据）让通才模型达到专家级灵巧操作，并能零样本跨本体迁移。

§2 与 π₀ / π₀.₅ / π₀.₆ 的差异

这一节解决什么

π₀.₇ 在模型架构上变化不大，核心创新在数据+prompt层。对比前几代，用一张表锁死差异。

2.2 差异对照表

层面	π₀（2024-10）	π₀.₅（2025-04）	π₀.₇（2026-04）
骨干 VLM	PaliGemma (SigLIP + Gemma 2.6B)	同 PaliGemma	Gemma3 4B (400M SigLIP)
Action Expert	300M flow matching	~300M (同 π₀)	860M flow matching
总参数	~3B	~3B	~5B
视觉历史	当前帧	MEM 压缩历史	MEM-style：最多 6 历史帧 + 时空压缩
Prompt 内容	task instruction 仅一句话	task + subtask + web co-train	task + subtask + subgoal images + episode metadata + control mode
Subgoal 图片	无	无	World Model (BAGEL 14B) 生成多视角 subgoal
Episode 元数据	无	无	speed / quality / mistake 标签
训练数据	高质量 demo 为主	异质机器人 + web 数据	demo + 次优自主数据 + 失败数据 + RL rollout + 人类视频 + web
推理时调控	仅改 language	仅改 language + subtask	metadata prompting + CFG + coaching
Cross-embodiment	有限（task-specific fine-tune）	改善	零样本跨本体折衣服，匹配人类遥操

关键洞察

π₀.₇ 的架构变化是渐进式的（换 Gemma3 + 更大 Action Expert），真正的质变来自数据侧：(1) 大量吸收次优 / 失败轨迹，(2) 用 episode metadata 消歧， (3) 用 world model 生成视觉 subgoal。一句话："不是模型变大了，是 prompt 变丰富了"。

🧠 理解检查

π₀.₇ 相比 π₀.₅ 最关键的创新在哪个层面？

§3 核心创新：Diverse Prompting

这一节解决什么

π₀.₇ 的核心不在架构，而在怎么组织给模型的输入。它把 prompt 从一句话 task description 扩展到四个维度的多模态 context： subtask 指令、subgoal 图片、episode 元数据、控制模式。训练时随机 dropout 各组件，推理时灵活组合。

Fig 3 · p.6 Prompt overview. π₀.₇ uses diverse modalities of context in the prompt, including subtask instructions, subgoal images, and episode metadata. 两个任务示例："put food on table" 用了全部四个维度，"fold the shirt" 省略了 subtask（展示 dropout 灵活性）。

3.1 Subtask Instructions

沿用 π₀.₅ 的设计，在 task 级描述 ℓ（如"clean the kitchen"）之外，还加入中间粒度的语义子任务 ℓ̂（如"open the fridge door"）。推理时由一个 learned high-level policy（同架构的另一个 VLA）或人类 coaching 产生。

这让模型可以被逐步口头引导（verbally coached）做从未见过的任务，比如用语言一步一步教机器人往空气炸锅里放红薯。

3.2 Subgoal Images

文字指令说"open the fridge door"，但没告诉机器人手该抓哪里。 π₀.₇ 额外加入多视角 subgoal 图片 g = [G¹,...,Gⁿ]，描绘任务完成后世界"应该长什么样"——提供了比文字更精确的空间 grounding。

Subgoal 图片由一个基于 BAGEL (14B MoT) 的轻量级 world model 生成。这个 world model 用 web + 非机器人视频 + 机器人数据混合预训练，可以在推理时为陌生环境"想象"出合理的未来画面。

与 goal-conditioned policy 的关系

传统 goal-conditioned policy 直接用目标图片做 conditioning。 π₀.₇ 的不同在于 subgoal 是生成的（而非真实的），且只用于提示而非监督—— 训练时 75% 的样本不带 subgoal，模型只在有 subgoal 时把它当 hint，没有时照样能干活。

3.3 Episode Metadata

π₀.₇ 训练数据不再只有高质量 demo，还包括失败轨迹、低速操作、RL 自主探索。为了让模型区分"好"和"坏"行为，给每条轨迹打三个标签：

Overall speed	Episode 总步数，离散到 500 步间隔（如 1750–2250 → "2000 steps"）。更快通常意味着更高质量
Overall quality	1–5 分人工标注的执行质量
Mistake	布尔值，标记某个片段是否包含错误（抓空、执行错误子任务等）

推理时，永远 prompt "quality: 5, mistake: false, speed: 15th percentile"，引导模型输出最高质量行为。这就是 "steerable" 的由来—— 同一个模型可以通过元数据被推向不同的行为分布。

核心洞察 · 为什么要训练"坏"数据

不放元数据时，更多低质量数据 → 性能下降（Fig 18 左）。但加了 metadata 后，即使低质量数据越来越多，模型性能持续上升。因为 metadata 让模型学会了"这条轨迹是怎么做的"和"我该怎么做"的映射，相当于从反面教材中提取正面知识。

🧠 理解检查

Episode metadata（speed/quality/mistake）在 π₀.₇ 中起什么作用？

3.4 Control Mode

支持两种底层控制模式：joint（关节空间）和 ee（末端执行器空间），通过 prompt 中的文本标识符切换。运行时根据任务特性选择。

3.5 完整 Prompt 示例

<Multi-view observation> <Multi-view subgoals>
Task: peel vegetables. Subtask: pick up the peeler.
Speed: 8000. Quality: 5. Mistake: false.
Control Mode: joint.<Proprioception>
        

训练时各组件独立 dropout：subgoal 只出现在 25% 的样本中， metadata 整体 drop 15%，每个子字段额外 5% 独立 drop。控制模式不 dropout。

§4 架构（5B 参数）

这一节解决什么

架构相比 π₀.₅/π₀.₆ 变化不大——依然是 VLM backbone + Action Expert 的双塔结构。主要升级：换了 Gemma3、Action Expert 更大、加了 MEM 视觉历史。

Fig 2 · p.4 Architecture overview. The π₀.₇ model is a 5B-parameter VLA consisting of a 4B VLM backbone, a MEM-style video history encoder, and a 860M parameter action expert. 三层架构：上层 VLA 主模型（VLM + Action Expert），下层两个辅助模型（High-Level Policy + World Model），异步产生 subtask 和 subgoal。

🪜 跟着推理流程走一遍

1 / 6

第 1 步：观察输入

多路相机拍摄当前场景（前视+双腕+可选后视），MEM-style encoder 把当前帧+最多 6 帧历史压缩成固定数量 token。

第 2 步：High-Level Policy 生成 subtask

左下的高层策略模型（或人类 coaching）根据 task instruction + 当前观察，输出下一个语义子任务，如 "pick up the knife"。

第 3 步：World Model 生成 subgoal 图

BAGEL 14B 根据当前观察 + subtask 指令，"想象"出任务完成后的多视角图片。异步生成，不阻塞主循环。

第 4 步：组装 prompt → VLM 处理

把观察 token + subtask 文本 + subgoal 图 token + metadata 文本拼成一个统一 prompt，喂给 Gemma3 4B VLM。Block-causal attention：视觉双向，文本因果。

第 5 步：Action Expert 去噪

860M Action Expert 接收 VLM 激活 + 噪声 token，用 5 步 flow matching 去噪，输出 50-step action chunk（连续关节值）。

第 6 步：执行 + 异步刷新

执行 chunk 中的前 15–25 步，然后刷新。同时 High-Level Policy 和 World Model 在后台异步更新 subtask / subgoal，保证 50Hz 控制频率。

4.2 VLM Backbone（Gemma3 4B）

VLM backbone 由 Gemma3 4B 初始化，包含一个 400M SigLIP 视觉编码器。输入最多 4 路相机（前视、双腕、可选后视），每路可带最多 6 帧历史。 VLM 同时处理文本 prompt（task/subtask/metadata）和视觉 token。

使用 Knowledge Insulation (KI) 训练策略：VLM backbone 只用 FAST token 的交叉熵 loss 监督， Action Expert 的 flow matching 梯度不回传到 VLM，保护 VLM 的 language 能力不被破坏。

4.3 MEM-style Vision Encoder

Vision encoder 沿用 MEM 的设计，对历史帧做时间+空间压缩，输出固定数量的 token（不随历史帧数变化）。历史帧采样步幅 1 秒，整体以 0.3 概率 dropout。后视相机也以 0.3 概率 dropout。

Subgoal 图片经过同一个 vision encoder处理，但压缩到与单帧相同的 token 数。观察图 448×448，subgoal 也 resize 到 448×448。

4.4 Action Expert（860M）

Action Expert 是 860M 参数的小 transformer，用 flow matching 训练，预测 50 步 action chunk。使用 adaptive RMSNorm 注入 flow matching timestep （类似 DiT 的做法）。

50 个 action token 彼此做双向 attention，也可以 attend VLM backbone 的所有激活。部署时使用 5 步去噪。

与 π₀.₆ 不同的是，π₀.₇ 不再用离散 text token 表示本体状态（proprioception），而是用线性投影把连续状态映射到 backbone 维度，每个历史步对应一个 token。

4.5 Block-Causal Attention

Attention mask 分块：

观察 + subgoal token	双向 attention（彼此可见），subgoal 也可 attend 观察
文本 token	因果 attention（左→右），可 attend 前面所有观察/subgoal
Action Expert token	双向，可 attend VLM backbone 所有激活

RTC · Real-Time Action Chunking

π₀.₇ 使用 Real-Time Action Chunking (RTC)：训练时模拟 0–12 步推理延迟，对应最大 240ms（50Hz 机器人）。这让模型在有推理延迟时仍然输出平滑轨迹。

§5 训练

5.1 数据：diverse + suboptimal

π₀.₇ 的训练数据是迄今最多样的：

DEMO · 高质量演示

人工遥操作轨迹

多种平台（移动双臂、静态双臂、单臂）、多种环境（lab + in-the-wild）。

AUTONOMOUS · 自主数据

RL / policy rollout

包括 π₀.₆* 的 RL 评估数据、失败 episode、人工干预片段。用 metadata 标注质量。

HUMAN · 人类视频

自我中心人类操作

非机器人的第一人称视频数据，教模型理解物体交互的语义。

WEB · 网络数据

多模态 web 数据

物体定位、属性预测、VQA、视频 captioning 等。只提供图文，不提供动作。

关键实验结论（Fig 7）

metadata + 次优数据 > 只用高质量数据。去掉 metadata → 更多低质量数据反而降分。加了 metadata → 数据越多越好，因为模型学会了在 metadata conditioning 下把不同质量策略的知识都用起来。这本质上是一种 "蒸馏"——通才模型吸收专家级 RL 策略的经验。

5.2 World Model（BAGEL 14B）

Subgoal 图片由一个 BAGEL 14B（Mixture-of-Transformers）world model 生成。该模型用 web 数据 + 非机器人视频 + 机器人数据做 image editing / generation 预训练，训练目标是 flow matching loss：

$$\max_\psi\ \mathbb{E}\!\left[\,\mathcal{L}_\text{CFM}\!\left(\,g^*_t,\ g_\psi(o_t,\,\hat\ell_t,\,m)\,\right)\,\right]$$ BAGEL 14B world model · conditional flow matching loss

逐项拆解

$g^*_t$: 真实的未来帧（25% 取片段末帧，75% 随机 0–4s）
$g_\psi(o_t, \hat\ell_t, m)$: world model 输出——基于当前观察 $o_t$、subtask 标签 $\hat\ell_t$、metadata $m$ 生成的 subgoal 图
$\mathcal{L}_\text{CFM}$: conditional flow matching loss（图像生成版的 flow MSE）

训练 subgoal 时混合真实未来帧（25% 概率取片段末帧，75% 随机 0–4s）和生成帧，缓解 train-test mismatch。推理时异步生成 subgoal，不阻塞 VLA 主循环。

5.3 Dropout 策略 + CFG

各 prompt 组件独立 dropout，让模型在推理时可以灵活组合任意子集：

Subgoal images	只在 25% 的样本中出现（有 subgoal 时变"逆动力学"问题，训练更快）
Subtask ℓ̂（带 subgoal 时）	额外 30% 概率 drop（因为 subgoal 图已经包含语义信息）
Episode metadata 整体	15%
每个 metadata 子字段	额外 5% 独立 drop
Control mode	不 dropout

推理时可选 Classifier-Free Guidance (CFG)，用 metadata 做 conditioning vs unconditional 的梯度差来加强期望行为：

$$\nabla_a \log \pi(a \mid o, C)\ +\ \beta \cdot \big(\,\nabla_a \log \pi(a \mid o, C)\ -\ \nabla_a \log \pi(a \mid o, C_\text{uncond})\,\big)$$ CFG 去噪步 · $\beta \in \{1.3, 1.7, 2.2\}$ · 灵巧任务提速

逐项拆解

$\nabla_a \log \pi(a \mid o, C)$: 有条件 score——给定完整 prompt $C = \{\ell, \hat\ell, g^*, m, c\}$ 时的方向
$\nabla_a \log \pi(a \mid o, C_\text{uncond})$: 无条件 score——把 metadata 等条件 drop 掉的方向
$\beta$: guidance 强度：$\beta=0$ 等于普通有条件采样，$\beta>0$ 把"条件带来的差量"放大

§6 推理（Algorithm 1）

这一节解决什么

π₀.₇ 的推理是一个异步多线程流水线： VLA 主循环输出动作，high-level policy 和 world model 在侧线程异步更新 subtask / subgoal。

完整推理流程：

初始化：拿到初始观察 o₀、task 指令 ℓ、metadata m、控制模式 c
High-level policy 或人类给出初始 subtask ℓ̂
World model 生成初始 subgoal：g* ~ p_ψ(g* | o₀, ℓ̂, m)
组装 context：C = {ℓ, ℓ̂, g*, m, c}
VLA 用 5 步去噪生成 50-step action chunk
每执行 H̄ ∈ {15, 25} 步后，刷新 action chunk
异步更新：当 subtask 变化或距上次生成 > 4s 时，world model 重新生成 subgoal

异步设计的好处

World model 和 high-level policy 的推理在独立线程运行， VLA 主循环不等待它们，总是使用最新可用的 subgoal 和 subtask。这保证了 50Hz 的控制频率不被打断。

6.2 Classifier-Free Guidance

对 metadata 做 CFG：每步去噪时同时跑一次 conditional 和一次 unconditional（drop 掉 metadata），用加权差值推动动作分布向"高质量、高速、无错误"方向偏移。在灵巧任务（espresso machine、laundry folding）中效果显著。

§7 实验亮点

这一节解决什么

π₀.₇ 的实验量很大（20+ 页），这里提炼五组最核心的结论。

7.1 Out-of-Box Dexterity（Fig 6）

Fig 6 · p.9 Out-of-the-box dexterity: π₀.₇ can perform a wide range of highly dexterous tasks directly out of the box. 上排：π₀.₇ vs π₀.₆* RL 专家（每个任务一个专家）。下排：π₀.₇ vs π₀.₆ SFT 专家。绿色=π₀.₇，黄色=专家。单个通才模型在所有任务上同时达到专家级别。

一个 π₀.₇ 通才模型 vs 多个 π₀.₆* RL 专家（每个任务各一个）：

Laundry (T-Shirts)	π₀.₇ 成功率 ≈ RL 专家，吞吐量更高
Box Building	π₀.₇ 吞吐量超过 RL 专家
Make Espresso	π₀.₇ ≈ RL 专家
Make PB Sandwich / Slice Zucchini / Peel Vegetables	π₀.₇ ≈ SFT 专家

关键：这是单个通才模型在所有任务上同时达到专家级别，且不需要 task-specific post-training。

7.2 Instruction Following（Fig 9–11）

在 4 个未见过的厨房 + 2 个未见过的卧室中测试，每个场景给 3–6 步 open-ended 指令。π₀.₇ 大幅超越 π₀.₅ 和 π₀.₆。

更令人印象深刻的是反数据集偏差（Fig 11）：训练数据中"碗总是扔垃圾桶、盘子放洗碗池"，但 prompt "reverse bussing"（反过来做）时 π₀.₇ 能正确执行—— 说明它真的在跟随指令，而不是复现数据分布。

7.3 Cross-Embodiment Transfer（Fig 12–13）

Fig 12 · p.12 Cross-embodiment transfer. Left: simpler rearrangement tasks. Right: dexterous laundry folding on UR5e. 左：简单重排任务跨本体迁移（π₀.₅/₀.₆/₀.₇ 都能做）。右：灵巧叠衣从静态双臂→UR5e，π₀.₇ + World Model (GC) 效果最好，虚线是人类遥操基线。

最令人兴奋的实验：在UR5e 双臂上折衣服—— π₀.₇ 从未见过 UR5e 的叠衣数据（训练数据全在小型静态双臂上收集）。

π₀.₇ 衬衫折叠	Task progress 85.6%，Success rate 80%
人类遥操（首次用 UR5e）	Task progress 90.9%，Success rate 80.6%

π₀.₇ 接近10 位经验最丰富的遥操人员首次使用 UR5e 时的水平。而且模型发明了与源机器人不同的策略：在小臂上人类用倾斜抓取， π₀.₇ 在 UR5e 上改用垂直抓取（更适合大臂的运动学约束）。

实用意义

灵巧技能可以从轻量、容易遥操的平台上采集数据，然后零样本迁移到高载荷工业臂上—— 后者采集数据的成本高得多。这是 π₀.₇ 最有工业价值的发现之一。

7.4 Compositional Generalization（Fig 15–17）

两种组合泛化路径：

(a) 短时：零样本新任务（Fig 17）—— 没有专门数据也能做法式压壶、往电饭锅舀米、用抹布擦物品、旋转铰接物体。模型通过重组训练中学到的子技能完成新任务。

(b) 长时：Language Coaching → 自主执行（Fig 14–16）—— 人类用步进指令教 π₀.₇ 做空气炸锅、烤面包等多阶段新任务。 Coaching 数据可直接用于训练一个 high-level policy，之后模型完全自主执行这些任务，性能与 coaching 时相当。这意味着：不需要额外遥操数据，只靠语言就能教新技能。

7.5 Scaling with Data Diversity（Fig 18）

Figure 18: Scaling with diverse context and data

Fig 18 · p.14 Scaling of generalization performance with diverse context and data. 左：有 metadata（绿线）时数据越多越好；无 metadata（红线）时数据越多反而越差。右：去掉最高多样性 20% 数据掉分最多。

两个关键消融：

Left：在 laundry 任务上，训练数据从 30% → 100%（包含越来越多低质量数据），无 metadata 的模型反而变差，有 metadata 的模型持续变好。 → Metadata 让模型 design more scalable。

Right：去掉最高多样性 20% 的数据比随机去掉 20% 掉分更多。 → 任务多样性（而非简单的数据量）是组合泛化的关键驱动力。

🧠 理解检查

π₀.₇ 在 UR5e 双臂上零样本折衣服的表现如何？

§8 收获与局限

核心收获

1. Prompt expansion 是关键——不是模型变大了，而是给模型的"上下文"变丰富了。 Subgoal 图 + metadata + subtask 三板斧让一个通才 VLA 变得可操控。
2. 次优数据是宝藏——只要有 metadata 消歧，失败/低速/低质量数据反而提升性能。
3. 跨本体迁移成真——折衣服这种高灵巧任务能从小臂零样本迁移到 UR5e，且模型自动发明适合目标本体的策略。
4. 语言 Coaching 是新的数据采集方式——无需遥操就能教新技能。

局限

1. 未见任务成功率仍低于已见任务——已见任务 >90%，未见任务/未见机器人组合约 60–80%。
2. 难以界定"真正新颖"——训练集太大太多样，很难确定某个泛化能力是真正 zero-shot 还是"重混"了相似数据中的技能。论文自己也承认这一点，并将其定义为 compositional generalization。
3. World model 质量依赖——subgoal 图像生成错误时会误导策略，目前没有自动检测/拒绝低质量 subgoal 的机制。
4. 闭源——与 π₀.₅ 的 openpi 不同，π₀.₇ 未开源（截至 2026-04）。

对 VLA 研究的启示

π₀.₇ 表明 VLA 正在走 LLM 的老路：scaling law 不只是模型变大，也是 context 变丰富。就像 GPT-4 加了 system prompt / few-shot / tool use，π₀.₇ 加了 subgoal / metadata / coaching。对后续研究者来说，如何设计更好的 robot prompt 可能比设计更好的架构更重要。