// Embodied AI · 具身智能学习笔记

具身智能学习笔记

面向具身智能(Embodied AI)方向的中文学习记录:论文精读、源码精读、以及认知科学/理论背景。 聚焦 VLA(视觉-语言-动作)模型、世界模型、控制策略等方向,每篇都有架构拆解 / 核心公式 / 与工程实践的连接。

8
已精读
30+
计划中
6
覆盖方向
最近更新 Recent 按更新时间排序
2026-04-27 · 刚完成
RT-2 · Vision-Language-Action Models Transfer Web Knowledge
VLA 开山之作:Google DeepMind 用 PaLI-X 55B / PaLM-E 12B 直接微调输出动作 token, co-fine-tuning 保留 Internet 语义知识。涌现能力:符号理解、数学推理、人类识别—— robot 数据中从未出现过的能力。OpenVLA 和 π₀ 的共同起点。
✓ 已精读 Google DeepMind · 2023 VLA · Co-Fine-Tuning · Emergent
2026-04-27 · 刚完成
OpenVLA · An Open-Source Vision-Language-Action Model
第一个完全开源的通用 VLA:Prismatic-7B(SigLIP + DINOv2 + Llama 2 7B)在 970k 轨迹上微调, 动作离散化为 256-bin token。7B 参数比 55B 的 RT-2-X 高 16.5%,LoRA 微调只需 1 张 A100, 4-bit 量化后 7GB VRAM 即可部署。
✓ 已精读 Stanford · Berkeley · CoRL 2024 VLA · Open-Source · 7B
2026-04-27 · 刚完成
π₀.₇ · A Steerable Generalist Robotic Foundation Model
Physical Intelligence 2026 最新:架构小升(Gemma3 4B + 860M Action Expert = 5B), 核心在 Diverse Prompting——subtask 指令 + BAGEL world model 生成 subgoal 图 + episode metadata(speed/quality/mistake)让通才 VLA 可操控。零样本跨本体折衣服匹配人类遥操。
✓ 已精读 Physical Intelligence · 2026 VLA · Steerable · Cross-Embodiment
2026-04-27 · 刚完成
π*₀.₆ · A VLA That Learns From Experience (RECAP)
Physical Intelligence 2025-11:在 π₀.₆ 基础上加 RL 回路。把 advantage 当 prompt token、 独立 distributional VF 当裁判、纯 SL loss 完成 RL 改进——绕开 flow matching 没有可计算 log-π 的死结。 真机:13h 连续做 espresso、2h 折新衣物、最难任务 2× throughput 且失败率减半。
✓ 已精读 Physical Intelligence · 2025-11 VLA · RL · Advantage Conditioning
2026-04-27 · 刚完成
π₀.₅ · A VLA with Open-World Generalization
Physical Intelligence 2025 续作:架构小动两刀(state 进 prompt + adaRMSNorm), 训练换两阶段(discrete pre + flow post),数据混 web/HL/VI 异质源。在没见过的真家做家务。 §6 对照 openpi 源码:哪些公开了、哪些只在 paper 里。
✓ 已精读 Physical Intelligence · 2025 VLA · Open-World
2026-04-21 · 刚完成
π₀ 数据 Pipeline · Transform 设计
以 openpi 的 transform 链为主线:7 层适配器 + 镜像对称(训练 .inputs 单向 / 推理 .inputs+.outputs)+ norm_stats.json 做粘合。逐层展开每个 transform 的"做什么/为什么/代码在哪", 以及 LIBERO / ALOHA / DROID 三种数据集的适配差异对照。
✓ 已完成 数据流 · Transform openpi · LeRobot
按方向浏览 Roadmap 点击展开
VLA · 视觉-语言-动作 把 VLM 作为 backbone,直接从感知+指令映射到机器人动作。当前 embodied 主流路线。 9 篇已读
世界模型 · JEPA 路线 LeCun 倡导的非生成式联合嵌入预测架构 2 篇已读
控制 · Policy & Planning 底层策略网络与经典控制方法,VLA / 世界模型的下游输出 1 篇已读
生成式基础 · VAE 到 Flow π₀ flow matching 的上游知识链:VAE → Diffusion → Score SDE → Flow 2 篇已读
WAM · 世界-动作模型 世界模型生成 subgoal / 模拟未来,辅助策略学习 1 篇已读
认知科学 · 参考背景 婴幼儿认知、动物智能,指导 embodied AI 的数据/课程设计 1 篇已读
// ABOUT

关于本项目

这是一个个人学习笔记仓库,记录具身智能(Embodied AI)方向的学习过程——不限于论文精读, 也包含源码精读、工程实践、认知科学背景等。 每篇笔记包含:核心贡献/设计、架构拆解、关键公式或代码、以及与研究/工程实践的联系。 使用中文写作,英文专业术语保留对照,方便查阅原文。

如有错误或建议,欢迎通过 GitHub Issues 指出。