π*₀.₆: a VLA That Learns From Experience

Physical Intelligence · arXiv 2511.14759 · 2025-11-19

这篇笔记怎么读

π*₀.₆ 不是又一个新架构——它是 π₀.₅ 的"实习医生升级"： π₀.₅ 学会了怎么在新家干活（imitation learning），但不会从自己的失败里改进； π*₀.₆ 加上了"从经验里学"的回路——叫 RECAP （RL with Experience and Corrections via Advantage-conditioned Policies）。

阅读路径：先看 §2 三代关系（π₀.₅ / π₀.₆ / π*₀.₆ 三个名字别搞混），再看 §3 RECAP 算法（一张 Fig 1 + 一张 Algorithm 1 总览）， §4–§5 是真正新的方法（distributional VF + 优势条件）， §7–§8 是真实场景结果（13 小时连续做咖啡、两小时折叠新衣服）。

§1 它在 π₀.₅ 之上多解决了什么

这一节解决什么

π₀.₅ 已经把"在新家 zero-shot 干活"做出来了——但论文里多数任务的成功率仍在 60–80%，速度也比不过人类。本质问题是：纯模仿学习的天花板就是示教质量，老师不会的、老师做错的，模型都学不到。 π*₀.₆ 直接面对下一个 open question—— VLA 能不能靠自己 deploy 时的经验持续提升？

核心主张（Abstract）

用 RECAP 训练的 π*₀.₆ 模型，可以在真实家里折叠各种衣物、在真实工厂场景里组装纸箱、用专业意式咖啡机做双份 espresso。最难的任务上，RECAP 让吞吐量翻倍以上，并把失败率大约减半。

展开原文 · Abstract 核心句

"We present a general-purpose method, RL with Experience and Corrections via Advantage-conditioned Policies (RECAP), that provides for RL training of VLAs via advantage conditioning. Our method incorporates heterogeneous data into the self-improvement process, including demonstrations, data from on-policy collection, and expert teleoperated interventions provided during autonomous execution."

— Abstract, p.1

类比 · 像不像 LLM 的 RLHF？

LLM 的发展路径是：pre-train（读万卷书）→ SFT（学着回答）→ RLHF（按反馈改进）。 VLA 现在走的是同一条路：π₀（pre-train + flow matching）→ π₀.₅（co-train + 高层推理）→ π*₀.₆（RL from experience + corrections）。 RECAP 在 VLA 里的位置 ≈ RLHF 在 LLM 里的位置——都是把"行动后果"变成可优化的反馈。

§2 三代关系 · π₀.₅ → π₀.₆ → π*₀.₆

这一节解决什么

读这篇论文最容易混淆的就是三个名字：π₀.₅（旧）、π₀.₆（新基模型）、π*₀.₆（带 RL 的最终模型）。上一节说了 RECAP 是"怎么学"；这一节先把"谁在学"和"从哪起步"搞清楚—— 后面所有公式才有意义。

2.1 三代差异对照

代际	π₀.₅（2025-04）	π₀.₆（2025-11，model card）	*π₀.₆（本论文）**
骨干 VLM	PaliGemma（SigLIP + Gemma 2.6B）	SigLIP 400M + Gemma 3 4B	同 π₀.₆
Action Expert	~300M flow matching	860M flow matching	同 π₀.₆
训练范式	imitation learning（两阶段：discrete → flow）	同 π₀.₅（更大数据）	+ offline RL · advantage conditioning
额外条件	language + state + images	同 π₀.₅	+ "Advantage: positive/negative" 文本 token
数据来源	异质机器人 + web + 高层 subtask 标注	+ 更多机器人本体	+ autonomous rollouts + human interventions
价值函数	无	无	670M VLM 骨干 + 离散 distributional value head
典型成果	新家 zero-shot 干 10–15 min	新基线（详见独立 model card PDF）	13h 连续做 espresso · 工厂组装纸箱 · 折新衣物 2x throughput

命名约定

带星号 π* 在论文里专指引入了 advantage conditioning 的版本—— 没星号的 π₀.₆ 只是"更大的 π₀.₅"，不会做 RL。后面所有方法章节谈的都是 π*₀.₆。

🔍 关于 π₀.₆ 的来源：它不在 arXiv，所以按"论文"搜不到—— PI 在 2025-11-17 单独放出了一份 PDF 形式的 model card： PI06_model_card.pdf。 π*₀.₆ 主论文的参考文献 [6] 就是引用的它（"Physical Intelligence Team. π0.6 model card. 2025"）。架构、训练数据、推理速度（H100 上 63ms / chunk）等细节全部出自这份 model card。

2.2 为什么需要 RL · 模仿学习的天花板

承上启下

§2.1 列了三代差异——但为什么非要在 π₀.₆ 头上再叠一层 RL？这一小节给两个理由，下一章 §3 直接讲怎么做。

问题	imitation learning 的硬伤
compounding error	训练时只看到"专家轨迹"。一旦 deploy 时漂出训练分布，模型不知道怎么"回到正轨"——错误会沿时间累积（Ross & Bagnell 2011）。
速度 / 鲁棒性	模型最多复现示教质量。示教者本身慢、或经常犹豫，模型就学不到比示教者更快的执行。
失败模式无法定向修复	"把 collar 折反了" 这种特定失败，加再多示教也不一定覆盖到。RL 只要用含失败的 rollouts就能精准压制（见 §8.4 Fig 12）。

🧠 理解检查

下面哪一项把三代关系说对了？

§3 RECAP 算法总览

这一节解决什么

§2 给出了"需要 RL"的动机。这一节用一张 Fig 1 + 一张 Algorithm 1 把 RECAP 的整套流水线讲完——后面 §4 / §5 只是放大它的两个核心齿轮。

3.1 一张图看懂 RECAP

Fig 1 · p.1 RECAP enables training VLAs with reward feedback and interventions. Our system starts with a pre-trained VLA that incorporates advantage conditioning, allowing the model to learn effectively from real-world experience. RECAP 的全景：左边喂数据，中间是 VLA + VF 双模型，右边是真机部署 + 人工干预，闭环回灌训练。

3.2 三件子任务 · Algorithm 1

先看伪代码再展开

论文把 RECAP 切成三个可重复调用的子例程，循环 K 次。每一次循环就是"跑数据 → 训 VF → 训 policy"——和 actor-critic 套路一样，但policy 训练用的不是 policy gradient，是 supervised learning + advantage 条件。

Algorithm 1 · 翻译版

Require: 多任务示教数据集 D_demo

# ─── Pre-training 阶段 ───
1: 用 D_demo 训 V_pre                             # 价值函数预训练（Eq.1）
2: 用 D_demo + V_pre 训 π_pre                     # 策略预训练（Eq.3）

# ─── 对每个下游任务 ℓ 单独跑 ───
3: 初始化任务阈值 ε_ℓ                              # 控制"什么算优势 > 0"
4: 用任务示教 D_ℓ 微调 V_ℓ⁰（从 V_pre 开始）        # SFT 价值函数
5: 用 D_ℓ + V_ℓ⁰ 微调 π_ℓ⁰（从 π_pre 开始）        # SFT 策略

# ─── RECAP 迭代 K 次 ───
6: for k = 1 to K do
7:   用 π_ℓ^(k-1) 在真机上 rollout，加进 D_ℓ      # autonomous + interventions
8:   用 D_ℓ 微调 V_ℓ^k                            # 重新训 VF
9:   用 D_ℓ + V_ℓ^k 微调 π_ℓ^k                    # 重新训 policy
10: end for

🪜 跟着 Algorithm 1 走一遍

1 / 5

第 1 步：拿到 demo 数据

D_demo 来自异质机器人 + web 多模态 + sub-task 标注（和 π₀.₅ 一样）。

第 2 步：先把 V 训出来

独立的 670M VLM + value head。Loss 是 Eq.1 的 cross-entropy on discretized returns。

第 3 步：用 V 训 policy（pre-training 的 π_pre）

Loss 是 Eq.3：log π(a|o,ℓ) + α·log π(a|I,o,ℓ)。I = 1{A(o,a) > ε} 就是把"动作够不够好"压成 0/1。

第 4 步：去真机跑，把 rollouts 加进数据集

自主跑大部分 + 人偶尔介入纠正。介入数据强制标 I=True（人当然是好的）。

第 5 步：循环 7–9 行

实测 K=2（box assembly）就足够；laundry K=1 已接近饱和。每次循环 = 一次"实习 → 总结 → 再实习"。

和经典 RL 的关键差异

没有 PPO、没有 REINFORCE、没有 policy gradient。 策略训练的损失始终是监督学习的 NLL——只是把"这个动作好不好"当成额外的 prompt喂进去。训练时随机出现 positive / negative 两种条件；推理时永远 condition on positive，相当于 classifier-free guidance（CFG）的"开关"。

§4 价值函数 · Value Function

这一节解决什么

§3 把 RECAP 的整体框架讲完了——但"价值函数"和"优势函数"具体长什么样没说。 VF 是这套流水线里的"裁判"，VF 不准，advantage 就是噪声，policy 越训越糟。这节回答：用什么 reward？怎么离散化？为什么用 distributional VF 而不是回归一个标量？

4.1 离散化 + 多任务 distributional VF

Reward 定义（Eq.5）

$$r_t = \begin{cases} 0 & \text{if } t = T \text{ and success} \\ -C_\text{fail} & \text{if } t = T \text{ and failure} \\ -1 & \text{otherwise} \end{cases}$$ 论文 Eq.5 · 每一步扣 1，成功不罚，失败重罚

一句话：每多走一步扣 1 分；成功不罚；失败重罚。所以 V^π(o) = "从这里走到成功还要负多少步"，归一化到 (-1, 0]。

为什么不是 distributional regression？

论文走 Bellemare 2017 distributional RL 的路线：把回报离散成 B = 201 个 bin， VF 输出每个 bin 的概率，loss 是 cross-entropy。连续回归一个 scalar 容易被极端值（fail 时的 -C_fail）拖着不收敛；分布预测对长尾稳定得多，并且天然给出 uncertainty。

VF 训练损失（Eq.1）

$$\min_\phi\ \mathbb{E}_{\tau \sim \mathcal{D}}\!\left[\,\sum_{o_t \in \tau}\ H\!\left(\,R^B_t(\tau),\ p_\phi(V \mid o_t, \ell)\,\right)\,\right]$$ 论文 Eq.1 · distributional VF 训练 · MC 估计 + B-bin 交叉熵

逐项拆解

$R^B_t(\tau)$: "从 $t$ 到轨迹结束的真实回报" 离散到 $B = 201$ 个 bin 的 one-hot 分布——这就是 ground truth
$p_\phi(V \mid o_t, \ell)$: VF 网络输出的"V 值在 B 个 bin 上的概率分布"
$H(\cdot, \cdot)$: cross-entropy——拉近预测分布和 ground-truth one-hot
$\mathbb{E}_{\tau\sim\mathcal{D}}$: Monte Carlo 估计：直接用整条轨迹的真实回报，不做 TD bootstrap

论文承认这不如 off-policy Q-function 优秀，但简单稳定，未来工作可以换。

4.2 VF 学到了什么（Fig 4）

子任务进度而不只是终态。”>

Fig 4 · p.5 We visualize the value function output on a folding task that finished successfully (left), and an unsuccessful example of a manipulation task (right). Red parts highlight a drop in value, green parts highlight value increases. VF 不只是预测最终成败——它能逐帧识别"这里走偏了"和"这里回到正轨了"，这是 advantage 能 work 的前提。

§5 优势条件策略提取

这一节解决什么

§4 把"裁判"训出来了。下一个问题是：有了 V，怎么把策略变好？ 正常 RL 的答案是 PPO / Q-learning——但 flow matching VLA 没有可计算的 log-likelihood，那些方法都用不了。RECAP 用的是第三条路：把"动作好不好"当 prompt 的一部分。

5.1 为什么不能直接 PPO / AWR

方法	用在 flow matching VLA 上的硬伤
PPO / REINFORCE	需要 log π(a\|o)。Flow matching 是 ODE/SDE 形式，没有 closed-form likelihood。论文 Appendix D 给了一个用 single-step diffusion ELBO 的近似（PPO baseline），但实测不稳定且性能差（Fig 11）。
AWR（advantage-weighted regression）	对样本按 exp(A/β) 加权——负优势的样本权重 ≈ 0，等于扔掉一大半数据。VLA 训练成本极高，扔数据是奢侈。
RECAP（advantage conditioning）	所有数据都参与 SL 训练，只是多个 binary 文本 token 标"好/坏"。推理时 condition on "好"——等价于 classifier-free guidance 的一种实现。

5.2 优势条件的数学

关键公式（Eq.2）

从经典 regularized RL 的闭式解出发，论文证明改进策略 π̂ 可以写成：

$$\hat\pi(a \mid o, \ell)\ \propto\ \pi_\text{ref}(a \mid o, \ell)\ \cdot\ \left(\frac{\pi_\text{ref}(a \mid I, o, \ell)}{\pi_\text{ref}(a \mid o, \ell)}\right)^{\!\beta}$$ 论文 Eq.2 · regularized RL 闭式解 · CFG 风格的策略改进

逐项拆解

$I = \mathbb{1}\{A^{\pi_\text{ref}}(o, a, \ell) > \varepsilon_\ell\}$: binary 改进指示符——动作 $a$ 的优势是否超过阈值 $\varepsilon_\ell$
$\pi_\text{ref}(a \mid I, o, \ell)$: 多 condition 一个 $I$ 的"打了好坏标签的"参考策略
$\beta = 1$: $\hat\pi = \pi_\text{ref}(a \mid I, o, \ell)$——直接 condition on $I=\text{True}$ 就是改进策略
$\beta > 1$: 进入 CFG（classifier-free guidance）模式，推理期"放大" advantage 信号

训练损失（Eq.3）

$$\min_\theta\ \mathbb{E}_\mathcal{D}\!\left[\,-\log \pi_\theta(a \mid o, \ell)\ -\ \alpha \cdot \log \pi_\theta(a \mid I, o, \ell)\,\right], \qquad I = \mathbb{1}\{A > \varepsilon\}$$ 论文 Eq.3 · 两项纯 NLL · ref policy + advantage-conditioned policy

两项都是纯 NLL——一项是无条件的（用作 ref policy），一项是有 advantage 条件的（用作改进 policy）。实践上不调 α，而是30% 概率随机丢掉 I 这个 token——这就是 CFG 风格的 dropout，等价 α = 1。

5.3 工程实现 · "Advantage: positive" prompt

实现细节（§V-B）

把 advantage 条件做成额外的文本 token，插在 prompt 末尾、动作之前：

... <language> ... <state> ... <subtask> ... Advantage: positive [actions]

这样既不动模型架构，也不动 tokenizer——VLM 见过的"positive / negative" 文本足够把语义带过来。训练时 30% dropout（无 advantage token），推理时永远填 "positive"。

类比 · 这就是 VLA 版的 CFG

Diffusion 图像生成里 CFG 的做法是：训练时随机丢掉 prompt（一定概率走 unconditional），推理时用 ε(x|prompt) - ε(x|∅) 的差去"放大 prompt 信号"。 RECAP 把"prompt" 换成"advantage 是 positive"——一模一样的把戏，只是把"条件"从描述换成奖励标签。

🧠 理解检查

RECAP 训练 policy 时不做下面哪一件事？

§6 模型架构

这一节解决什么

§3–§5 讲完了"训练时怎么用 VF + advantage"。这节回答"VLA 和 VF 这两个模型在物理上长什么样、怎么联动"——只看 Fig 3 一张图就够。

6.1 VLA + VF 联动（Fig 3）

从这里出发还要负多少步"。">

Fig 3 · p.4 Interaction between the π*₀.₆ VLA and value function during RECAP training. The VLA is conditioned on a binarized advantage indicator, obtained from a separate value function initialized from a pre-trained but smaller VLM model. 两个独立模型，一个评分（VF），一个执行（VLA）。耦合点只有一个文本 token——这是为什么改 VLA 几乎不动它的代码。

6.2 π₀.₆ 相比 π₀.₅ 改了什么

组件	π₀.₅	π₀.₆
VLM 骨干	PaliGemma（SigLIP 400M + Gemma 2.6B）	SigLIP 400M + Gemma 3 4B（model card）
Action Expert	~300M flow matching	860M（约 3×）
训练范式	discrete pre-train → flow post-train（KI）	同 KI
Pre-training 数据	多机器人 + web + HL subtask	+ 更多机器人本体
新增（仅 π*₀.₆）	—	+ advantage 文本 token + 独立 VF 模型

§7 任务 & 机器人

这一节解决什么

§3–§6 都是方法论。从这节开始进入"在哪里、做什么"—— 选了三类真实世界长程任务来验证 RECAP 是否真的能 work，而不是只在 sim 里好看。

7.1 双臂平台（Fig 5）

Fig 5 · p.7 The robot setup used in our experiments. Static bimanual system with two 6-DoF arms and parallel jaw grippers. Observations from base camera + 2 wrist cameras. Pre-training 用很多种不同机器人；本文实验只在这一台静态双臂上做迭代提升。

7.2 三类任务（Fig 6）

Fig 6 · p.8 Tasks include three different laundry variants, assembling boxes, and making coffee drinks with an espresso machine. 三类任务、五个变体。每个都规定了明确的"成功标准"——这是 reward labeling 的物理依据。

任务	成功标准	难点
Fold T-shirts & Shorts	大致矩形 + 叠到指定堆位	π₀ 时代就在做的基线任务，速度是关键
Laundry Diverse（11 类）	同上，但物品种类多（毛衣、袜子、内衣...）	形变物体多样性大，最难的是 button-up shirt
Laundry Ablation	橙色 T 恤 + collar 必须朝上	故意放在容易出"collar 朝下" 失败模式的初始姿态
Assemble Box	从纸板片 → 组装 → 贴 label → 入箱	真实工厂 deployment；需要受力操作 + 多步骤协调
Make Espresso (Cafe)	取 portafilter → 磨豆 → 压粉 → 锁机 → 萃取 → 端送，<200s	商业咖啡机；液体 + 受力 + 长程

§8 实验结果

这一节解决什么

§7 描述了"在哪做"。这节用四张图回答四个具体问题： RECAP 比 baseline 强多少？多次迭代有没有持续提升？比 AWR / PPO 强多少？能不能定向修掉某个失败模式？

8.1 吞吐量 + 成功率（Fig 7 / Fig 8）

Fig 7 · p.9 Throughput (successful completions per hour). RECAP applied to π*₀.₆ (Ours, 黄色最右) leads to substantial improvements in throughput across all tasks. 最右黄柱（Ours = π*₀.₆ + RECAP）在四类任务上都明显高于左侧 baselines；最难的"Diverse Laundry" 和"Make Espresso" 上吞吐量翻倍以上。

Fig 8 · p.9 Success rates with standard error. Each stage of RECAP improves performance across the tasks; failure rates reduce by ~2× on diverse laundry & espresso. 除"Diverse Laundry" 外，最终模型成功率都进入 90%+ 区间——已经能用于实际场景。

方法（自左向右）	含义
π₀.₅ Pretrain	旧基线
π₀.₆ Pretrain	更大基模型，不用 RECAP
π*₀.₆ OfflineRL Pretrain	π₀.₆ + advantage conditioning，但只用 demo 数据
π*₀.₆ OfflineRL + SFT	+ 任务示教 SFT 微调
*π₀.₆ Ours**	+ RECAP 迭代（autonomous + interventions）= 完整方法

8.2 迭代式提升（Fig 9 / Fig 10）

Fig 9 · p.10 Improvement in throughput over multiple iterations. Both tasks improve significantly with more RECAP iterations. i=0 → i=1 → i=2 一直在提升。Box assembly 在 i=1 时甚至略有下降（数据噪声大），i=2 后大幅超越。

8.3 vs AWR / PPO（Fig 11）

Fig 11 · p.10 Comparison of different policy extraction methods. RECAP achieves by far the highest throughput compared to AWR and PPO. 同样的数据、同样的 VF——只换 policy extraction 方法。AWR/PPO 都不如 RECAP。PPO 还需要小 trust region (η=0.01) 才能稳定，而稳定后性能依然差。

8.4 移除特定失败模式（Fig 12）

Fig 12 · p.10 Failure mode removal. RECAP is particularly effective at removing failure modes, even when learning entirely via RL without intervention data. Laundry Ablation 任务：刻意制造 collar 朝下的初始条件——baseline 经常折反。两次 RECAP 迭代后成功率冲到 97%，证明 RECAP 可以定向修掉特定 bug。

论文最爆的两个场景数字

Espresso · 13 小时不间断：在咖啡店连续做 espresso 13h，无人工干预。
Laundry · 2 小时折新衣：在新家折叠未见过的衣服 2h，零中断。
Box assembly · 工厂 deployment：组装的纸箱用于真实工厂打包。

§9 收获 · 局限 · 与 π₀.₅ 的对照

这一节解决什么

把整篇论文压缩成一张总结卡片——你应该带走什么、它没解决什么、它和 π₀.₅ 在开源生态上的关系。

9.1 三条 takeaway

1 · advantage conditioning 是 flow VLA 做 RL 的"破局点"

过去 RL on VLA 的难点是没有可计算的 log π。RECAP 把"这个动作好不好" 从 loss 里挪到 prompt 里，绕过 likelihood，用纯 SL 完成 RL 改进。这条思路对所有 likelihood-free 的生成式模型（diffusion / flow / EBM）都有借鉴意义。

2 · 异质数据是 deployment 的杠杆

最终训练数据 = 多机器人示教 + autonomous rollouts + human interventions。其中 interventions 是少量 + 高价值——只在模型犯错时介入，几百条就够大幅改善。这比"先采几千条新数据再 SFT" 经济得多。

3 · distributional VF 是 long-horizon 任务的关键

把回报离散成 201 bin、用 cross-entropy 训——比单 scalar 回归稳定。 Fig 4 显示 VF 学到的不只是终态，还有子任务进度，这是 advantage 能 work 的物理依据。

9.2 局限（论文 §VII 自己承认）

不自主	仍依赖人做 reward labeling、interventions、episode resets。完全 hands-off 还做不到。
探索很弱	只靠 policy stochasticity 和 human interventions 做"探索"。如果初始策略完全偏离，RECAP 救不回来。
Offline 风格的 RL loop	不是 fully online——仍是"采一批 → 训一遍 → 再采"。online 版本是 future work。
只在一台双臂上验证迭代提升	pre-training 跨多本体；但 RECAP 迭代实验全在静态双臂上完成，跨本体迭代未做。

9.3 对照 π₀.₅ · openpi 开源什么

关于开源

π₀.₅ 在 openpi 里以 Pi0Config(pi05=True) 开放了架构。 π*₀.₆ / RECAP 截至本文发布未开源——只有 blog post + 论文。可以预期跟随 π₀.₅ 的节奏，架构（advantage token 的位置 + VF 模型骨架）会进 openpi，但训练 recipe（VF 训练、advantage 阈值、intervention 数据 pipeline）大概率不会公开。

组件	π₀.₅ 状态	*π₀.₆ 预期**	说明
VLA 架构（含 adv token）	开源（pi05 flag）	可能开	只是多一个 prompt token
Action Expert 860M 权重	无（仅 π₀ 老权重）	几乎不会	商业核心
VF 模型代码	—	可能开骨架	distributional head 标准做法
VF 权重	—	几乎不会	同上
RECAP 训练 loop	—	几乎不会	含真机数据 pipeline
真机 rollouts / interventions 数据	—	几乎不会	商业资产

🧠 最终理解检查

下面哪个组合最完整地概括了 RECAP？

📄 原文：pi0.6.pdf · 🌐 Blog：pistar06 · 🔗 前作：π₀.₅ Open-World · π₀ VLA