【读书笔记】Sequoia AI Ascent 2026（五）：Dmitri Dolgov (Waymo) — 2000 万次行程与全自动驾驶之路

2026-05-13 17 min

返回首页

早期生活与教育背景

01:21

成长轨迹：Dmitri 出生于苏联，随后在日本度过了一年，然后在美国读高中。最后他选择回到俄罗斯的莫斯科物理技术学院 (Moscow Institute of Physics and Technology) 学习数学和物理。
个人动机：回到俄罗斯学习很大程度上是因为他的父母曾就读于同一所学校，他从小听着这所学校的故事长大。
核心洞见：这段极具挑战性的名校经历为他打下了坚实的技术基础。更重要的是，他在这段经历中培养了独立探索和学习的能力。随后，他在人工智能 (AI) 领域获得了博士学位。

接触自动驾驶与 DARPA 挑战赛

02:38

顿悟时刻：在完成研究生学业时，恰逢 2005 年左右的 DARPA（美国国防高级研究计划局）自动驾驶挑战赛。这对他来说是一个”顿悟时刻” (light switch moment)。
投入原因：他之所以全身心投入，是因为这项技术极具吸引力，其背后的社会使命非常伟大，而且最重要的是，这是一个可以亲手操作的真实产品。
重要引述：“这项技术极其有趣，使命如此强大，以至于没有其他任何事物能与之相提并论……它真正满足了我的所有期待。” (“the technology is incredibly interesting the mission is so powerful that nothing else come close and it’s a real product… it really checked all the boxes for me”)

Waymo 的早期岁月 (2009-2015)

03:54

起步阶段：项目于 2009 年作为 Google 的自动驾驶汽车项目正式启动。当时的团队规模很小，只有大约十几个人，处于极其疯狂的 24/7 创业状态（白天写代码、装硬件，晚上测试）。
两大疯狂目标：

在全自动驾驶模式下累计行驶 10 万英里（在当时的业界闻所未闻）。
驾驶 10 条各 100 英里长的困难路线（遍布整个旧金山湾区），要求在没有人类干预的情况下全程独立完成（尽管驾驶座上坐着安全员）。

里程碑：这支小团队花了大约 18 个月的时间完成了这两个当时看似不可能的挑战。

穿越 AI 和自动驾驶的炒作周期

07:11

行业背景：2016-2017 年间，人工智能出现了一波炒作周期，自动驾驶车辆 (AV) 处于风口浪尖，随后行业遭遇了巨大的低谷，许多公司倒闭或放弃。
技术演进规律的洞见：Dmitri 认为，技术突破往往会在解决问题的初期带来非常快速的进展，但改变不了问题长尾的难度。
重要引述：“自动驾驶问题一直有这样一个特点：起步非常容易，但要将其彻底转化为具备超人类表现的全自动驾驶真实产品却极其困难。” (“The problem has always had this property that it’s very easy to get started but it’s very difficult to take it all the way to a real product full autonomy and superhuman performance”)
坚持的动力：在困难时期坚持下来的秘诀在于两点：一是坚信使命的严肃性（全球每 26 秒就有一人死于道路交通事故）；二是认清现实，绝不寻找容易的捷径或一劳永逸的方法 (silver bullets)。

Waymo 的基础模型 (Foundation Model) 与世界模型

09:44

核心架构：Waymo AI 生态系统的核心被称为”Waymo 基础模型” (Waymo Foundation Model)，它支撑着三大核心支柱：司机 (Driver)、模拟器 (Simulator) 和 评论家 (Critic)。
多模态世界模型：Dmitri 将该模型描述为一个多模态的世界 - 动作 - 语言模型 (Multimodal world action language model)。
术语和行话解释：
多模态 (Multimodal)：不仅处理摄像头图像或视频，还要融合激光雷达 (Lidar) 和毫米波雷达 (Radar) 等不同传感器的数据。
世界动作模型 (World action model)：不仅需要深刻理解世界的 3D 空间属性、物理规律和动力学，理解汽车、行人等其他参与者的行为，并且 Waymo 自身更是现实世界中的”主动参与者”，其行为会改变周围世界的运转。
语言对齐 (Aligned with language)：引入了视觉语言模型 (VLM) 的通用世界知识，有助于 Waymo 系统深入理解驾驶中的语义和复杂的社会属性。

端到端架构 (End-to-End) 与中间结构化表征

12:44

端到端架构的局限性：尽管 Waymo 的基础模型是一个从传感器输入直达决策输出的端到端模型，但 Dmitri 指出，将问题仅仅划分为”是不是端到端”是一个伪命题。
解决方案：针对实现拥有”超人类安全性”和在大规模行驶数亿英里的最终产品，纯粹的基础端到端系统是不够的。Waymo 在机器学习的表征之上，增强了具体化的结构中间表征 (structured materialized intermediate representation)。
此架构的优势：
支持在物理世界中进行运行时 (runtime) 的额外安全验证。
赋能闭环评估 (Closed-loop evaluation) 和闭环训练。
为强化学习提供极其丰富的奖励函数。

第六代硬件与全新乘客体验

15:30

第六代 Waymo Driver：这是 Waymo 迄今最先进的硬件和传感器套件，重点在于提升性能、大幅简化架构、显著降低成本并满足大规模量产。
极氪 (Zeekr) 车辆平台：最新的定制化车辆完全围绕”乘客体验”进行设计。虽然占地面积与捷豹 I-PACE 相似，但车内拥有如同”客厅”般的极大后排空间，并配备了自动感应滑门。

指数级扩张与日常生活中的 Waymo

17:05

指数级的规模化：
达到首个 1 亿英里花了近 16 年，而从 1 亿到 2 亿英里仅花了约半年。
Waymo 花了 8 年时间才在 4 个城市向公众提供全自动驾驶服务，而就在不久前，他们在一天之内就一口气发布了 4 个新城市。
迄今已提供超 2000 万次全自动驾驶行程，其中 1000 万次是在过去 7 个月内完成的。
扩张步骤：到达新城市意味着收集数据、刻画环境特征、模型验证，并且最重要的是——与当地社区沟通以赢得信任。
Dmitri 的日常使用：他每天乘坐 Waymo 在旧金山和帕罗奥图的高速公路上通勤。他的孩子们对人类驾驶的汽车甚至会感到烦躁，对孩子们来说，出行中唯二会指认的事物只有”狗狗”和”Waymo”。

极致的安全文化与 13 倍的安全记录

19:54

安全数据表现：Waymo 目前每周全自动行驶里程超过 400 万英里。在超 1.7 亿英里的自动驾驶总里程中，在严重致伤事故方面，Waymo Driver 的安全性是人类司机的 13 倍。这意味着目前 Waymo 每 8 天就能防止一次严重的交通事故伤害。
真实救援示例：一名骑电动滑板车的年轻女性在 Waymo 车辆正前方失控摔倒。Waymo 系统展现了超人类的准确度和反应时间，瞬间变道并刹车，确保了所有人的安全。

“隔空感知”：激光雷达预测视线盲区行人的惊人案例

23:17

示例描述：在旧金山的一个红绿灯路口，一辆公交车横穿并挡住了交叉路口。当 Waymo 迎来绿灯准备起步时，尽管视线完全被公交车遮挡（摄像头、雷达均无法穿透实体），Waymo 却做出了防御性等待。随后果然有一名行人从公交车后方走出，Waymo 顺畅地绕开了他。
技术揭秘 (类比与解释)：Waymo 并没有透视眼。真实情况是，Waymo 的激光雷达 (Lidar) 脉冲信号在公交车底盘下的路面发生了弹射反弹，并从公交车底捕捉到了行人双脚移动时产生的极其稀疏的信号回波。Waymo AI 利用这微弱的信号片段，不仅侦测到了行人的存在，还准确预测了他未来的移动轨迹，从而保护了人类的安全。

商业模式的未来与全球扩展

25:08

未来愿景：Waymo 已经彻底完成了从”有意且按顺序的降低风险” (intentional sequential de-risking) 阶段到”快速并行的全球商业化” (rapid parallel global commercialization) 阶段的转变。
下一步扩张：除了深耕目前美国的 11 个城市，Waymo 已宣布计划进军国际市场，即将在伦敦和东京推出服务。

总结

视频高层级摘要：

在本次 AI Ascent 炉边谈话中，Waymo 联合 CEO Dmitri Dolgov 回顾了公司从 Google 内部的早期挑战项目成长为累计提供超 2000 万次服务的自动驾驶全球领导者的非凡历程。他深入探讨了自动驾驶领域的巨大挑战，解释了纯粹的”端到端”架构为何不足以支撑产品级安全，并揭秘了 Waymo 基于多模态世界模型结合结构化表征的 AI 架构。此外，他还通过雷达识别车底盲区行人等真实案例，展示了其超人类的安全表现。目前，拥有 13 倍于人类驾驶安全性的 Waymo 已经彻底跨越了风险验证阶段，正式开启了涵盖欧美与亚洲城市的快速并行全球商业化进程。

关键要点列表 (Top 10-15 洞察)：

初心与使命感：2005 年 DARPA 挑战赛让 Dmitri 意识到自动驾驶是一个将高深技术与伟大社会使命完美结合的真实产品领域。
极端的早期挑战塑造了团队：Waymo 早期通过设定不可能的目标（如在没有任何人工干预下穿越 100 英里极难路线）实现了技术架构的最初飞跃。
技术长尾理论：AI 在自动驾驶上的起步极其容易，这导致了过去的炒作周期；但将其打造成超越人类安全的最终产品却极其困难。
Waymo 基础模型的三大支柱：AI 生态建立在”司机、模拟器和评论家”之上，构成了一个多模态的世界 - 动作 - 语言模型。
“主动”世界模型：系统不仅是被动建模，还要深刻理解自身的介入如何改变真实世界中其他交通参与者的动力学行为。
视觉语言模型 (VLM) 的整合：通过对齐语言模型，Waymo 能够提取更深层的社会语义特征来理解复杂的驾驶博弈。
超越基础”端到端”：在纯粹的神经网络端到端系统之上，增强结构化的中间表征对于实现极其苛刻的物理世界安全验证闭环至关重要。
硬件以量产和体验为导向：第六代传感器极大地优化了成本，而合作的全新平台（极氪）则为乘客打造了”客厅”般的空间。
指数级扩张的引爆点：前 8 年仅在 4 个城市落地，近期却在一天之内同时开设 4 个新城市，并已累计完成超 2000 万次行程。
安全数据的绝对碾压：在导致严重伤害的事故对比中，Waymo 车辆的安全性是人类司机的 13 倍。
微弱信号的超强推理：Waymo 系统能够通过车底反弹的稀疏激光雷达信号，极其精准地预测被物理障碍物完全遮挡的行人轨迹。
进入并行商业化时代：公司已完全结束线性验证阶段，正以前所未有的速度扩张，并即将进驻伦敦和东京。

技术术语词汇表：

DARPA Challenge (美国国防高级研究计划局挑战赛)：21 世纪初由美国军方举办的著名无人驾驶汽车竞赛，是现代自动驾驶行业的摇篮。
Foundation Model (基础模型)：Waymo AI 系统的底层架构，能够处理多种输入模态并做出对物理世界的复杂推理和预测。
World Model (世界模型)：一种赋予 AI 深刻理解物理世界动力学、3D 空间结构以及其他交通参与者行为模式的底层模型。
Multimodal (多模态)：指 AI 系统能够同时整合并处理多种不同类型的传感器数据输入，如摄像头视频、激光雷达 (Lidar) 和毫米波雷达 (Radar)。
VLM (Visual Language Model / 视觉语言模型)：一种结合了视觉与文本理解能力的模型。Waymo 借此将广泛的通用世界常识和社会语义特征引入驾驶决策中。
End-to-End (端到端架构)：在深度学习中，直接从传感器数据输入映射到驾驶决策输出的架构，中间不依赖工程师人工编写的具体规则模块。
Lidar (激光雷达)：Light Detection and Ranging，通过发射激光脉冲并测量反射时间，来精确构建车辆周围 3D 环境的高精度传感器。
Closed-loop Evaluation/Training (闭环评估/训练)：一种高级验证机制。在此机制中，AI 代理的动作输出会直接反馈并改变当前环境的状态，从而使系统可以针对整个反应链条进行连续评估和更新。

读书笔记 AI前沿