【读书笔记】Sequoia AI Ascent 2026(十三):Naveen Rao — 为什么大脑的计算效率比 GPU 高出一百万倍

20 min

演讲者背景介绍

00:02 主持人介绍了 Naveen Rao。他是人工智能领域的先驱,拥有神经科学博士学位。他在”AI 变得酷起来之前”就创办了最早的 AI 芯片公司之一,曾领导过最早的 AI 训练公司之一 Mosaic ML,并构建了 DataBricks 的整个 AI 体系。如今,他离开了这个职位,创办了一家新公司来重新定义计算的未来。

00:44 Naveen 登台并介绍自己为 Unconventional AI 的首席执行官。

初创企业的竞争优势

00:51 Naveen 提到,之所以叫”Unconventional”(非传统的),是因为他们正在做的事情未来可能需要改名为”传统的”。

01:00 他指出,现在是成为一家初创公司的绝佳时机。

  • 重要引述:“Having no baggage actually I think is a true competitive advantage.”(“没有任何历史包袱实际上我认为是一个真正的竞争优势。”)

01:06 相比传统的芯片公司或全栈公司,初创公司没有历史包袱,能够以快得多的速度推进工作,比如在短短几个月内完成芯片的流片(Tape-out),而不是花费数年时间。

呼吁基础物理层的计算效率革命

01:24 演讲的核心逻辑在于:我们必须实现大幅度的”计算效率(Compute Efficiency)“提升。

01:39 这里的”计算效率”指的不是算法效率(Algorithmic Efficiency)或数据效率(Data Efficiency),而是指底层物理介质(Fundamental Substrate)上处理信息的本质方式。

02:00 技术局限: 当下的计算机沿用的是大约80年前建立的架构(如20世纪40年代出现的数字抽象概念和浮点数机制)。这些机制原本是为完全不同的目的而设计的,如今却被硬套用于构建智能机器。

迫在眉睫的 AI 能源危机

02:28 虽然 AI 让我们的编码、手机代理运行等工作变得更高效,但从”实际能源”的角度来看,我们并没有变得更高效。

02:44 人类正在触及物理世界能源供应的极限。目前我们为了运行 AI 训练和推理已经消耗了数吉瓦(Gigawatts)的电能。

02:51 Naveen 预测,在未来两到四年内,世界将没有足够的多余能源来继续支撑 AI 的扩张。

03:07 类比与示例:电能与食物。它们分别是机器智能和人类智能的能量来源。电能的供应很快就会撞上”一堵坚硬的墙”。即使人类探索太空或建造核聚变反应堆,基础的物理学定律依然适用。

人类大脑与全球算力的数据对比

03:30 数据统计

  • 全球有 80 亿人口,每个人脑的功耗大约为 20瓦特。
  • 全人类的总脑力功耗仅为 160 吉瓦(Gigawatts)。
  • 而现今全球的总发电能力约为 9,000 吉瓦(美国约为 1,000 吉瓦)。

04:05 目前基于大语言模型的 AI 推理(包括构建和运行模型),完全负载下可能消耗高达一吉瓦的能量,至少也在兆瓦(Megawatts)级别。相比之下,人类的智能仅需 20 瓦特。

04:31 为了建设一个充满自动化智能的未来,我们需要极其庞大的瓦特数,或者我们必须制造出在能效上呈指数级提升的新型计算机。

兰道尔原理与效率曲线

04:58 图表和视觉参考描述 1:大屏幕上展示了一张图表,描述了智能与能耗的热力学极限。图中有一条渐近线(Asymptote)代表着物理学上不可逾越的效率极限。

05:29 兰道尔原理 (Landauer Principle):理论物理学中的一个原理,规定了在消耗一定能量的情况下,最多能进行多少计算。这是计算不可逾越的物理现实。

05:47 图表中,生物学(大脑)位于非常靠近渐近线的位置(大约差一到两个数量级)。而目前的 2D 光刻技术(目前的硅基芯片)位于图表的底部,距离潜在的能源效率极限还有大约三个数量级(1,000 倍)的差距。

为什么传统矩阵运算不是出路?

06:25 传统推进方式一直是依靠优化矩阵数学运算。Nvidia 在这个市场占据主导并不断突破。

06:44 虽然芯片制造成本和封装技术变好了,但在处理 FP8(8位浮点数)运算及内存访问时,每 Flop 的实际能效提升其实非常微小且增量有限。

生物学证明了极致能效是可能的

07:08 Naveen 作为有着10年计算机架构经验的神经科学家指出,生物学提供了一个”存在的证明”(Existence Proof)。虽然人脑每秒输出的 Token 数量低于机器,但其智能深度远超当前耗费大量吉瓦电能的机器。

07:35 示例统计

  • 猕猴的大脑功耗不到 1 瓦特。
  • 用户的智能手机功耗约为 1 瓦特。
  • 在树枝间跳跃的松鼠,其大脑处理高度复杂的风向、距离和运动轨迹计算,功耗不到 10 毫瓦(10 milliwatts),只有手机功耗的百分之一。而我们即使用了庞大得多的计算机也无法完美复现松鼠跳跃的运动计算。

非线性动力学 (Nonlinear Dynamics)

08:32 我们虽然不完全清楚生物学究竟是如何运作的,但我们可以从神经科学中提取一些思想。

08:43 核心机制:大脑是”动态的”(Dynamic),它并不使用矩阵数学进行计算,而是使用”非线性动力学”进行计算。这意味着神经元之间存在着随时间变化的交互,而计算正是蕴含在这种交互中。

09:08 随机性 (Stochastic):大脑的计算不仅包含非线性交互,还是随机的。在数字计算机中,如果 1 或 0 出现错误,整个系统就会崩溃,但大脑的容错率和运作逻辑截然不同。

Kuramoto 同步现象模型

09:28 图表和视觉参考描述 2:屏幕播放了一段”Kuramoto 同步(藏本同步)“的演示视频。视频中在一个木板上放置了一排振荡器(节拍器),它们最初处于杂乱无章的运动状态,但因为固定在同一木板上产生物理耦合,随着时间推移,它们最终在物理层面上达到了完全同步。

09:46 这展示了一个收敛的动力系统。如果将这种刚性耦合扩展为一种”可训练的耦合(Trainable Coupling)“,系统就能拥有极度丰富的动态状态。

10:07 图表和视觉参考描述 3:一张将电子视为电子电路的网格图。展示了一个由诸多振荡器通过可训练结构相互耦合的网络。这种动态与大脑的活动非常相似。

Unconventional AI 的芯片原型

10:28 图表和视觉参考描述 4:屏幕上展示了他们将在今年夏天流片的实际物理芯片版图(Chip Layout)。得益于 AI 辅助和没有历史包袱,他们在 6 个月内从零组建团队并完成了全套原型设计。

冯·诺依曼架构与物理时间轴计算的对比

10:44 传统的冯·诺依曼机器 (Von Neumann Machine):通过线性时间循环运行,系统写出状态,检索它,对其进行操作,然后再写回去。这种不断地”来回搬运数据”消耗了系统中最多的能量。

11:05 非线性动力学系统:给定一个初始状态,“踢它一脚(kick it)“,然后让它自然运行。让”物理学定律本身(Physics themselves)“来完成计算。状态的写入是隐式的,而非显式的。

  • 重要引述:“If you take anything from this talk, that we use the time axis of the physics to do computing and existing computing constructs do not.”(“如果说你要从这次演讲中带走什么,那就是:我们利用物理学的时间轴来进行计算,而现有的计算架构并没有这样做。“)

系统训练与生成式AI演示

11:29 这样的系统是可以训练的,开发者能够操纵系统进入特定的状态空间轨迹中。例如,他们通过在状态空间中描绘轨迹,画出了 Unconventional AI 的 Logo。

11:45 图表和视觉参考描述 5:一个动态图像生成的视觉演示。展示了一个生成模型。画面最初是一片随机的像素噪点。在时间线 t=1 时注入一次反向传播错误以设定目标图像类别(比如猫或马),随后让系统自然运行。像素随即聚集成有意义的表示,并在状态空间中自然地从一个动物”变形(morph)“过渡到另一种形式。

四种计算范式的架构对比

13:04 图表和视觉参考描述 6:屏幕打出一张列有四种不同计算范式对比的幻灯片。

  • CPU:擅长执行极快的单线程任务,是典型的冯·诺依曼结构,在内存、缓存和操作之间不停搬运数据。
  • GPU:能够同时处理多个操作数,从内存移动一大批操作数,执行操作后再写回。
  • 内存计算 (Compute in Memory):例如 Groq 芯片,执行类似的操作,但将计算和内存放置在同一个芯片结构上,实现了更细粒度的控制。
  • 动力系统 (Dynamical System - Non-Von Neumann):状态、功能和物理学本身重叠在了一起。状态存储与计算操作之间不再存在界限和分离。这带来了计算效率的指数级提升,这也是真正意义上的”非冯·诺依曼架构”。

13:53 演讲结束语:Naveen 表示他思考这个问题长达 30 年。现在我们正处于一个可以真正开始理解大脑如何工作的时代,因为我们现在已经拥有了去”构建一个类似大脑系统”的技术手段。


高层级摘要

在这场演讲中,神经科学家兼 Unconventional AI 的首席执行官 Naveen Rao 探讨了当前人工智能计算发展面临的严重能源瓶颈。他指出,现代 AI 消耗巨大电能的根源在于沿用了80年前的冯·诺依曼架构和传统的矩阵计算模式,距离物理定律允许的极点相差约 1,000 倍。受生物大脑超高能效(如人脑仅需 20 瓦,松鼠甚至低于 10 毫瓦)的启发,Naveen 提出了一种抛弃传统浮点数字架构、转而利用非线性动力学和物理定律时间轴进行计算的全新”非冯·诺依曼”芯片架构,这种技术将计算与状态存储融为一体,旨在将芯片计算效率提升至无限逼近热力学极限的水平。

关键要点列表(Top 11 洞察)

  1. AI 的能源墙:按照现有的能耗规模,未来 2-4 年内,全球将面临没有多余能源供 AI 消耗的危机。
  2. 当前架构的错位:我们正在使用为解决半个多世纪前的问题而发明的数字抽象和浮点数架构,来执行极度复杂的”智能”任务,这从根源上导致了低效。
  3. 巨大的能效鸿沟:人类仅以 160 吉瓦就能支持 80 亿人脑的运行,而目前单体庞大的 AI 模型训练和推理就可能消耗吉瓦级的电能。
  4. 生物学存在证明:不到 1 瓦的猕猴大脑,或仅需不足 10 毫瓦在风中精确计算跳跃轨迹的松鼠,证明了超低功耗高智能系统在物理上是存在的。
  5. 渐近线极限:由于传统芯片被限制在 2D 光刻技术的范畴内,现有芯片架构距离兰道尔原理标定的热力学物理效率极限还有约 1,000 倍的差距。
  6. 计算方式的本质差异:大脑不通过矩阵运算(Matrix Math)来处理信息,而是通过非线性动力学(Nonlinear Dynamics)完成计算。
  7. 时间轴计算:在动力系统中,物理时间本身取代了程序循环(Loop),系统基于初始状态”自然发展”,利用物理相互作用隐式计算。
  8. 冯·诺依曼架构的致命弱点:冯·诺依曼架构中大量能源被消耗在了向内存”读、写、搬运”数据的过程中。
  9. 突破性方案:在动态系统架构中,状态的存储和计算本身被合二为一,不再进行区分。
  10. 可控的动态网络:通过将相互耦合的振荡器(类似 Kuramoto 模型)变得”可训练”,我们可以操控这些物理介质收敛并呈现诸如图像生成等复杂任务结果。
  11. 初创公司的灵活性:没有历史负担(Legacy Baggage)的初创团队,能在极短的时间(6 个月内)利用 AI 辅助直接完成流片原型。

技术术语词汇表

  • Substrate (底层基板/介质):指用于实现计算和信息处理的物理材料和基础架构形式(比如传统的硅片电路与人脑的生物介质)。
  • Digital Abstraction (数字抽象):一种计算概念,将连续的物理信号(如电压)抽象为离散的二进制形式(0 和 1),以此构建现代计算机逻辑的基础。
  • Floating-point numbers (浮点数):计算机中用于表示实数的一种公式化标准(如 FP8、FP32),广泛用于现代深度学习的矩阵计算中。
  • Landauer Principle (兰道尔原理):理论物理和信息学中的一项重要原理,指出了擦除或改变一比特信息所必须耗散的最低能量边界(即计算在热力学上的物理极限)。
  • Nonlinear Dynamics (非线性动力学):研究输出不与其输入成正比的系统的学科。在神经科学中,代指大脑神经元互相之间随时间演变的复杂且非线性的耦合相互作用。
  • Stochastic (随机的):指系统行为包含内在的随机性或概率性元素,有别于确定性系统中可绝对预测的状态。大脑即拥有此特性,拥有更高的容错率。
  • Kuramoto Synchronization (藏本模型/藏本同步):一个用于描述大量相互耦合的振荡器如何自发呈现出同步现象的数学模型。
  • Von Neumann Machine (冯·诺依曼机):一种计算机系统架构,其特点是将程序存储器和数据存储器合并,计算过程严重依赖运算器和存储器之间的数据来回移动(即冯·诺依曼瓶颈)。
  • Compute in Memory (内存计算):一种将计算单元直接放置在存储单元附近或内部的架构模式(如 Groq),以减少数据搬移的能量消耗。
  • State Space (状态空间):数学和物理学概念,代指一个系统在给定时间内所有可能状态的集合。在演示中用于展示系统向目标(如描绘 logo 或动物图像)演化的轨迹图谱。