【读书笔记】Sequoia AI Ascent 2026（三）：Jim Fan — 机器人技术的终局之战

2026-05-13 20 min

返回首页

演讲背景与大语言模型的启示

00:00 引言与早期 AI 历史的交集

演讲者介绍：Jim Fan，NVIDIA 具身自主研究组（NVIDIA Robotics）负责人。
早期趣闻：2016 年，NVIDIA CEO 黄仁勋（Jensen Huang）向 OpenAI 交付了世界上第一台 DGX-1 超级计算机。作为当时的实习生，Jim Fan 和 Andrej Karpathy 都在这台机器上签了名。
视觉参考/幻灯片描述：展示了一张 2016 年的旧照片，黄仁勋在巨大的金属机箱上签名，并特写了 Jim Fan 和 Andrej Karpathy 的签名。
重要引述：“致埃隆及 OpenAI 团队，致计算与人类的未来，我向你们展示世界上第一台 DGX1。”（“To Elon and the OpenAI team, to the future of computing and humanity, I present you the world’s first DGX1.”）
重要引述：“如果你相信深度学习，深度学习也会相信你。”（“If you believe in deep learning, deep learning will believe in you.” —— OpenAI 联合创始人 Ilya Sutskever）

01:42 语言模型的六次进化与”大并行”策略

LLM（大语言模型）的三个阶跃函数
预训练 (Pre-training)：如 GPT-3 的”下一个 Token 预测”（Next token prediction）。其本质是学习语法规则和语言的形态，模拟思想和代码应该如何展开。
监督微调 (Instruct GPT, 2022)：将模拟对齐到有用的工作上。
强化学习与推理 (o1)：使用强化学习超越人类的模仿学习。
自动研究 (Auto Research)：将整个闭环加速到超越人类能力的极限。
机器人技术的”大并行”（The Great Parallel）
核心概念：大语言模型（LLM）的成功可以被复制到机器人技术中。
方法论：不再只是”模拟字符串”，而是去”模拟下一个物理世界状态”。然后在这一模拟切片上进行”动作微调”（Action fine-tuning），最后让强化学习（RL）跑完最后一英里。
类比与示例：Jim Fan 提到其他实验室在 LLM 领域”速通”AGI，机器人领域也应该参与其中。
重要引述：“如果打不过他们，那就加入他们。”（“If you can’t beat them, join them."")

模型策略 (Model Strategy)

03:28 从视觉语言动作模型 (VLA) 到世界动作模型 (WAM)

现有 VLA 模型的局限性
术语解释 - VLA (Visual Language Action Models)：过去三年占据主导地位的机器人模型架构，将视觉、语言和动作结合。代表模型有 Pi 和 GR00T。
核心痛点：它们本质上是”L-VLA”（Language 优先），大部分参数用于语言，其次是视觉和动作。这导致它们擅长编码知识和”名词”，但不擅长处理物理规律和”动词”。
示例与视觉参考：幻灯片展示了原始 VLA 论文中的一个指令：“将可口可乐罐移到泰勒·斯威夫特的照片上”。虽然模型泛化能力很强，但 Jim Fan 指出，这并非机器人真正需要的”物理预训练”能力。

04:33 视频生成模型作为内部世界模拟器

洞见：互联网上的”AI 视频废料”（Physics Slop）实际上是在内部学习模拟下一个世界状态。
示例：Sora 或 V3 等视频模型无需编程，就能自发学习出重力、浮力、光照、反射和折射等物理规律。
视觉参考：幻灯片播放了 AI 生成的视频（如水中的物体、AI 在像素层面通过预测未来状态来解迷宫）。
示例与重要引述：在某个视频生成失败的案例中，如果视线离开物体，物体就会变形或消失。Jim Fan 调侃道：“如果不看的话，几何形状是可有可无的。”（“Geometry is optional if you’re not looking.”）

06:01 推出 Dream Zero 与世界动作模型

概念定义 - Dream Zero：一种新型策略模型，它能够”梦见”（预测）未来几秒钟的状态，并据此采取行动。
技术细节：电机动作是高维连续信号，就像像素一样。Dream Zero 联合解码”下一个世界状态”和”下一个动作”。
成果：能够零样本（Zero-shot，即在没有专门训练过的情况下）解决训练中从未见过的任务和动词。
因果关联：如果视频预测成功，机器人的动作就会成功；如果视频预测出现幻觉，动作就会失败。
新范式确立：引入世界动作模型 (World Action Models, WAM)，标志着视觉和动作真正成为了第一公民。告别 VLA 时代。

数据策略 (Data Strategy)

07:42 遥操作的终结与可穿戴数据设备的崛起

遥操作 (Teleoperation) 的困境
视觉参考：展示了 NVIDIA 首席科学家 Bill Dally 戴着笨重的 VR 头显和像”中世纪刑具”一样复杂的骨骼装备进行操作。
局限：理论上限是每台机器人每天收集 24 小时数据，但实际上由于操作者疲劳和机器故障，通常每天只有 3 小时。极难规模化。
UMI 与灵巧手外骨骼 (Dex_OOI)
术语解释 - UMI (Universal Manipulation Interface, 通用操作接口)：一种巧妙的设计，让人类直接把机器人夹爪戴在手上收集数据，把机器人的身体排除在环路之外。
进阶发展 (Dex_OOI)：NVIDIA 开发了一种 1
映射五指灵巧机械手的外骨骼。
结果：利用这些可穿戴设备收集的数据，可以训练出完全自动化的机器人策略（Zero teleop data，零传统遥操作数据）。

10:56 终极解法：自我中心视频与 Ego-Scale

类比：特斯拉的 FSD（全自动驾驶）和 Waymo 之所以强大，是因为司机在日常开车时就在”无感”地贡献海量数据。机器人也需要这样一个不显眼的数据飞轮（Ambient process）。
推出 Ego-Scale 系统
核心技术：99.9% 的训练数据来自人类的第一人称（自我中心）视频，配有手部姿态追踪和密集的语言标注。
技术指标：端到端策略，直接将摄像头像素映射到具有 22 个自由度（22 DOF）的高灵巧机械手上。
训练配比：2.1 万小时的野外第一人称人类视频（预训练） + 仅 50 小时的高精度动捕手套数据 + 仅 4 小时的传统遥操作数据（占比低于 0.1%）。
视觉参考：幻灯片展示机器人能够完成极其精细的任务，如分类卡片、使用注射器转移液体、叠衬衫等。
灵巧度的神经缩放定律 (Neural Scaling Law for Dexterity)
重大发现：预训练时间（小时数）与最佳验证损失之间存在非常干净的对数线性（log-linear）数学方程式关系。这与 LLM 在 6 年前发现的缩放定律完全一致。
预测：未来一两年内，遥操作将几乎消失，被专门设计的数据可穿戴设备取代。而最终，机器人的主食将是海量的”传感器化人类数据”（Sensorized human data）。

环境策略 (Environment Strategy)

13:59 解决强化学习的”百万环境”瓶颈

痛点：前沿 AI 实验室有数百万个编程环境供 LLM 进行强化学习（RL），但机器人领域无法直接购买 100 万台实体机器人来做这件事。
示例：在实验室中让少数真实机器人不断重复组装 GPU 进行 RL。
重要引述：Jim Fan 开玩笑说：“好孩子，这个任务已经被我老板批准了。”（“Good boy, this task has been approved by my boss.”)

14:56 现实到模拟再到现实 (Real-to-Sim-to-Real) 与 Dream Dojo

方案一：数字表亲 (Digital Cousins)
概念：用 iPhone 扫描现实世界的物体，将其导入经典的物理模拟器，自动合成无限变化的虚拟物体进行训练。
方案二：Dream Dojo 神经模拟器
技术细节：超越了需要传统物理方程和图形引擎的模拟器。Dream Dojo 接收连续的动作信号作为输入，实时输出下一帧的 RGB 图像和传感器状态。
视觉参考：视频展示了完全由数据驱动生成的、极其逼真的模拟器画面（“你看到的每一个像素都不是真实的”）。
新的后训练 (Post-training) 范式
大规模并行的 RL 系统 = 少量真实机器人工作站 + 大量运行世界扫描的图形核心 + 运行世界模型的重型推理计算。
核心公式：算力 (Compute) = 环境 (Environment) = 数据 (Data)。
重要引述：“买得越多，省得越多。”（“The more you buy, the more you save.” —— 致敬黄仁勋的经典语录）。

终局之战 (The End Game)

16:47 机器人技术的科技树

类比：Jim Fan 将他的研究比作在策略游戏《文明》（Civilization）中解锁科技树的成就。目前距离通关还有三个成就：
成就 1：物理图灵测试 (Physical Turing Test)
定义：在广泛的活动中，你无法区分一项任务是由人还是由机器人完成的。核心衡量标准是”单位能量输入，单位劳动力输出”。
时间预测：大约还需要 2 到 3 年。
成就 2：物理 API (Physical API)
定义：机器人舰队可以像软件一样通过 API 和命令行进行配置。
应用场景：实现”熄灯工厂”（Lights-out factories），即只需输入 Markdown 设计文件，就能自动输出组装好的实体产品的”原子打印机”；以及全自动的化学、生物医学湿实验室。
成就 3：物理自动研究 (Physical Auto Research)
定义：机器人开始自行设计、改进并制造下一代的机器人，超越人类能力极限。

18:38 时间表与最终展望

推演逻辑：AI 界从 2012 年（AlexNet 的第一次前向传播）走到今天的”AI 崛起”花了 14 年。如果在 2026 年的基础上再加 14 年，就是 2040 年。
重要结论：由于技术呈指数级而非线性发展，Jim Fan 有 95% 的把握，到 2040 年我们就能走到科技树的尽头。
重要引述：“如果你相信机器人技术，机器人技术也会相信你。”（“If you believe in robotics, robotics will believe in you.”）
重要引述：“我们这一代人出生得太晚，无法探索地球；出生得太早，无法探索星辰；但我们生得正是时候，来攻克机器人技术。”（“Our generation was born too late to explore the earth and too early to explore the stars, but we are born just in time to solve robotics.”）

总结

视频高层级摘要

在这场极具前瞻性的演讲中，NVIDIA 具身人工智能负责人 Jim Fan 详细阐述了机器人技术如何正在复刻大语言模型（LLM）的成功路径，进入他所谓的”大并行”时代。他提出了实现机器人技术终局的三大核心策略：抛弃以语言为主的 VLA 模型，转向能理解物理规律的”世界动作模型”(WAM)；终结低效的遥操作，利用海量第一人称视频和” Ego-Scale”实现数据飞轮；以及通过”Dream Dojo”神经模拟器解决强化学习的环境瓶颈。最终，他预测机器人技术将在 2040 年之前解锁科技树的所有成就，实现从”物理图灵测试”到”机器人工厂”再到”自动迭代进化”的全面突破。

关键要点列表 (Top 12 洞察)

“大并行”理论：机器人的突破将完全复刻语言模型的三个阶段：预训练（模拟世界状态）、动作微调（对齐实际任务）和强化学习（自主进化）。
VLA 的谢幕：现有的视觉语言动作模型过于侧重语言和名词，缺乏对物理规律（动词）的真正理解。
视频模型即物理模拟器：AI 生成的视频废料不仅是视觉输出，更是模型在内部自发学习重力、光照等底层物理规律的过程。
世界动作模型 (WAM) 崛起：未来的模型将联合预测下一个世界状态和下一步动作（如 Dream Zero）。
遥操作的物理极限：传统的机器人遥操作存在每天 24 小时的物理天花板，且操作极其繁琐，难以实现规模化。
无损数据收集：通过人类直接穿戴夹爪或外骨骼（UMI 和 Dex_OOI），可以将机器人本体排除在数据收集环路之外，极大提高效率。
数据飞轮的终极形态：像特斯拉 FSD 一样，机器人未来的主要数据来源将是无感知的、海量的人类第一人称（自我中心）日常视频。
Ego-Scale 突破：利用 99.9% 的人类第一人称视频数据，仅配合极少量的精准动捕数据，就能训练出高灵巧度的机器人双手。
灵巧度的神经缩放定律：机器人领域也证实了与 LLM 一致的规律——预训练时间越长，模型表现（验证损失）越好，呈完美的对数线性关系。
算力等同于环境：通过神经模拟器（Dream Dojo），可以直接将动作信号转化为逼真的视觉和传感器输出，打破了强化学习缺乏物理环境的瓶颈。
物理 API 的未来：未来的工厂将变成”原子打印机”，只需输入代码文件即可全自动生产实体产品。
2040 年终局时刻：预计在 2040 年前后，机器人将解锁”自我设计与制造”的终极成就。

技术术语词汇表

DGX-1: NVIDIA 于 2016 年推出的世界上第一台专为深度学习设计的超级计算机。
VLA (Visual Language Action Models): 视觉语言动作模型，过去几年主流的机器人控制模型架构，以语言理解为核心来驱动视觉和动作。
WAM (World Action Models): 世界动作模型，Jim Fan 提出的新范式，能够联合预测物理世界的未来状态和机器人的连续动作。
Teleoperation (遥操作): 人类通过复杂的 VR 头显、手柄或机械臂远程控制机器人，以录制机器人训练所需的动作数据。
UMI (Universal Manipulation Interface): 通用操作接口，一种允许人类直接手持机器人执行器收集数据的巧妙硬件设计。
Ego-Scale: NVIDIA 提出的一种数据系统架构，主张高度依赖人类第一人称视角的视频进行大规模预训练。
DOF (Degrees of Freedom): 自由度，用于描述机器人关节运动能力的指标（例如 22 DOF 代表非常灵巧的机械手）。
Neural Scaling Law (神经缩放定律): 机器学习中的一种经验规律，指模型的性能会随着计算量、数据量或模型参数的指数级增加而呈线性或对数线性提升。
Dream Dojo: NVIDIA 开发的一种数据驱动的神经模拟器，无需传统的物理公式和图形渲染引擎，直接实时输出逼真的模拟环境。
Digital Cousins (数字表亲): 将真实世界中的物体通过 3D 扫描引入物理引擎，并自动生成多种变体用于模拟训练的概念。
Physical Turing Test (物理图灵测试): 衡量机器人能力的里程碑，即在执行物理任务时，其能耗和产出效率让人无法分辨它是机器还是人类。
Lights-out Factories (熄灯工厂): 高度自动化的无人工厂，因不需要人类工人，甚至可以在不开灯的情况下运行。

学习笔记 AI前沿