Embodied AI Notes · 具身智能学习笔记

具身智能学习笔记

面向具身智能（Embodied AI）方向的中文学习记录：论文精读、源码精读、以及认知科学/理论背景。聚焦 VLA（视觉-语言-动作）模型、世界模型、控制策略等方向，每篇都有架构拆解 / 核心公式 / 与工程实践的连接。

VLA · 视觉-语言-动作把 VLM 作为 backbone，直接从感知+指令映射到机器人动作。当前 embodied 主流路线。 9 篇已读 ▾

① 主模型

π₀Physical Intelligence 2024 ✓ π₀.₅ · Open-World VLAPI 2025 ✓ π*₀.₆ · RECAPPI 2025-11 ✓ π₀.₇ · Steerable GeneralistPI 2026 ✓ π₀ 系列训练指南预训练/后训练/HITL详解 ✓ π₀ / π₀.5 代码阅读openpi · pi0_pytorch.py ✓ π₀ 数据 Pipelineopenpi · transforms ✓ OpenVLAKim et al. 2024 ✓ RT-2Google DeepMind 2023 ✓

② 基础组件

VLM 架构合集Encoder/Connector/LLM · 面试向 ✓ PaliGemmaSigLIP + Gemma ○ Flow MatchingLipman 2023 ✓ SigLIP视觉编码器 ○

③ 延伸方向

SayCanLLM 任务分解 ○ Helix / Figure AI ○

世界模型 · JEPA 路线 LeCun 倡导的非生成式联合嵌入预测架构 2 篇已读 ▾

① 开山之作

JEPA / H-JEPALeCun 2022 ✓

② 横向扩展

I-JEPA图像 · Meta 2023 ✓ MC-JEPA多任务 · Meta 2023○ V-JEPA视频 · Meta 2024○ Audio-JEPA音频○ Point-JEPA · 3D-JEPA点云 / 3D○ V-JEPA 2Meta 2025○

③ 原理/架构改进

LeJEPA理论简化○ Causal-JEPA因果结构○ ThinkJEPA推理型○

控制 · Policy & Planning 底层策略网络与经典控制方法，VLA / 世界模型的下游输出 1 篇已读 ▾

① 生成式策略

Diffusion PolicyChi et al. IJRR 2024 · π₀ 前身 ✓ ACTAction Chunking Transformer○

② 模型预测控制

MPC / MPPI经典最优控制○ TD-MPC2Hansen et al. 2024○

③ 层次化规划

DirectorHafner et al. 2022○

Loco-Manipulation · 移动操作边走边抓：腿/全身参与操作，扩大工作空间。分层 RL + Sim2Real 是主流路线。 9 篇已读 ▾

① 腿足 Legged

VBC · 视觉全身控制Liu et al. CoRL 2024 · Unitree B1+Z1 · 19 DoF · 零真机数据 ✓ DeepWBC · 统一全身策略Fu et al. CoRL 2022 · Advantage Mixing + ROA · VBC 前身 ✓

② 人形 Humanoid

VLK · Vision-Language-KinematicsWang et al. 2026 · 重建场景合成交互 · 预测运动学而非动作 · 0 遥操作 · Unitree G1 ✓ OpenHLMHu et al. 2026 · 全身人形 Loco-Manip 经验配方 · 13 个受控实验 · π₀.₅ · Unitree G1 ✓ MotionWAMZheng et al. 2026 · 实时人形 Loco-Manipulation 世界-动作模型 ✓ SONICLuo et al. NVIDIA 2026 · 超大规模运动追踪 + 通用全身控制 ✓ Humanoid-GPTQi et al. 清华/Galbot 2026 · 2B 帧 · causal Transformer · tracking scaling law · 与 SONIC 对比 ✓ Ψ₀Wei et al. USC/NVIDIA 2026 · 800h 人类视频 + 30h 真机 · 解耦训练 · MM-DiT · G1 ✓ Being-M0.7BeingBeyond 2026 · 隐空间 WAM · 万小时三流语料 · MoT · 人机统一运动表示 · G1 ✓

生成式基础 · VAE 到 Flow π₀ flow matching 的上游知识链：VAE → Diffusion → Score SDE → Flow 3 篇已读 ▾

① 必读

VAEKingma & Welling 2014○ DDPM · 去噪扩散Ho et al. 2020○ DiTPeebles & Xie 2023 · Transformer+Diffusion ✓ Flow MatchingLipman et al. 2023 · π₀ 核心 ✓

② 桥梁

Score SDESong et al. 2021○ DDIM · 加速采样Song et al. 2021○ Consistency ModelsSong et al. 2023 · 1-step 生成 · 蒸馏 / 独立训 ✓

WAM · 世界-动作模型世界模型生成 subgoal / 模拟未来，辅助策略学习 8 篇已读 ▾

① Subgoal 生成

SuSIEBlack et al. 2023○ UniPiDu et al. 2023○ 3D-VLAZhen et al. 2024○

② Dreamer 系列

World ModelsHa & Schmidhuber 2018○ PlaNet / RSSMHafner 2019○ Dreamer v1Hafner 2020 · ICLR · latent imagination ✓ Dreamer v2 / v3Hafner 2021 / 2023○

③ 视频世界模拟器

Genie / Genie 2DeepMind 2024○ DIAMONDAlonso et al. 2024○ Cosmos-Predict2.5NVIDIA 2026-02 · Flow Matching DiT · Sim2Real ✓ Cosmos 3NVIDIA 2026-06 · Omnimodal MoT · Action ✓ DreamDojoNVIDIA 2026 · 44k h Human Video · Latent Action ✓

④ VLA 前身

RT-1 / RT-2Brohan et al. 2023○ IRISMicheli et al. 2023○

⑤ 实时 WAM

DiT4DiTMa et al. 2026 · Video + Action 联合建模 ✓ Fast-WAMYuan et al. 2026 · 190ms · 无 embodied PT · 受控消融 ✓ τ₀-WMZhou et al. 2026 · 统一视频-动作世界模型 · TTC · 27K hrs ✓

⑥ 部署适配 · Test-Time Training

WAM-TTTFeng et al. 北大/Galbot 2026 · 人类视频 → TTT 快权重 · 零标注 steering ✓

认知科学 · 参考背景婴幼儿认知、动物智能，指导 embodied AI 的数据/课程设计 1 篇已读 ▾

① 发育心理学

婴儿认知发育时间线Dupoux ✓

② 核心概念

Core KnowledgeSpelke & Kinzler○ Intuitive Physics BenchmarkIntPhys○

// ABOUT

关于本项目

这是一个个人学习笔记仓库，记录具身智能（Embodied AI）方向的学习过程——不限于论文精读，也包含源码精读、工程实践、认知科学背景等。每篇笔记包含：核心贡献/设计、架构拆解、关键公式或代码、以及与研究/工程实践的联系。使用中文写作，英文专业术语保留对照，方便查阅原文。

如有错误或建议，欢迎通过 GitHub Issues 指出。