【读书笔记】Sequoia AI Ascent 2026(十二):Ben & Asher Spector — 为什么数据才是 AI 的真正瓶颈
视频介绍与演讲者背景
00:00开场与介绍**主持人将两位演讲嘉宾带上舞台:Ben Spector 和 Asher Spector,他们是初创公司 Flapping Airplanes 的创始人。
00:35团队背景介绍**Ben Spector:曾在斯坦福大学攻读博士学位(并在毕业前8个月退学),期间深耕底层 GPU 系统,编写了”Mega kernels(巨型内核)“。他曾帮助创办过一家名为 Prod 的孵化器,该孵化器孵化了许多成功的公司。
Asher Spector:Ben的哥哥。同样是斯坦福大学的博士,曾在 Cursor、Mercor 和 Meta 等公司工作。
Aidan Smith(未到场):第三位联合创始人,Thiel Fellow(泰尔奖学金获得者)。他曾在大学和 Neuralink 之间经历了三年的”超级通勤”,非常精通大脑神经科学和机器学习。
01:17澄清公司的业务性质**重要引述:“We are not an airplane… we are an AI lab.”(我们不是一家飞机公司……我们是一家人工智能实验室。)
公司成立仅三个月,收到了大量来自航空业(Aviation Industry)的业务咨询。
示例:演讲者幽默地提到,有人试图向他们推销”跑道(Runways)“——不是指风投领域的资金生命线,而是真实的飞机跑道;还有人推销飞机零件和风洞。因此他们在此正式澄清,公司与制造飞机无关,纯粹是做 AI 研究的。
01:46演讲大纲概述**本次演讲涵盖两大主题:
- 论点 (Thesis):为什么未来属于数据高效(Data-efficient)的AI。
- 方法 (Approach):他们融合系统架构与底层算法来解决这一问题的具体方法。
当前AI模型的现状与局限
01:59大型模型在高数据任务上的统治力**演讲者指出,当前的大型语言模型(LLMs)在处理两类极具价值的任务时表现极为出色:搜索(Search)和编程(Coding)。这两个领域代表了至少万亿美元级别的市场。
关键细节:它们表现优异的核心原因是这些任务资源极其丰富(Well-resourced)。搜索模型可以吸收几乎整个互联网的数据,而编程任务也占据了互联网数据的巨大份额。
术语定义:
LLMs (大型语言模型):基于深度学习构建的系统,通过摄入海量文本数据来理解、生成人类语言或代码。
Synthetic Data (合成数据):由计算机算法或程序自动生成的数据。编程领域是一个”极其友好的环境”,如果你需要,可以轻易生成堆积如山的合成代码数据来喂给模型。
核心痛点:我们能否用少得多的数据获得类似强大的能力?人类在学习编程时,所需要的数据量可能只有当前 AI 模型的万分之一或十万分之一。
长尾经济领域的数据缺乏
02:53其他实体经济的现实**图表和视觉参考:屏幕上展示了一个从左向右横向排列的气泡图。左侧代表”数据量大”的领域,有两个巨大的蓝色气泡:“搜索(1T)“。右侧代表”数据量低”的领域,显示了多个粉色气泡,包括:“交易(Trading)”、“机器人(Robotics)”、“科学发现(Scientific Discovery)“,以及最右侧的一个小气泡:“端到端烤面包机供应链(End-to-end toaster supply chain)”。
示例和类比:演讲者使用”端到端烤面包机供应链”作为隐喻。
使用原因:这并不意味着他们真的要去做烤面包机,而是作为一个象征,代表了广泛的宏观经济中成千上万个极其细分、缺乏数字化数据积累的”长尾任务”。现实世界的经济并不只有搜索和编程,它是由大量这类”数据匮乏”的实体流程组成的。
机器人领域的生成数据难度极大,而科学发现领域则几乎没有现成数据,但潜力是无限的。
经济学视角:算力与数据的扩展差异
03:31算力比数据更容易扩展 (Compute is easier to scale than data)**图表和视觉参考:屏幕上展示了一条指数增长的曲线图,名为”部署的FLOPS (Deployed FLOPS)“,展示了从2023年到2025年,以英伟达(Nvidia)、AMD等公司为首的算力规模呈爆炸式、指数级上升。
术语定义:
Flops (每秒浮点运算次数):衡量计算机运算速度和算力性能的标准化指标。
算力(Flops)随着时间推移正变得呈指数级廉价。虽然数据也在变便宜,但速度远比不上算力。
算力市场 vs 数据市场:算力市场是同质化的(Homogeneous)。只要有钱,公司就可以在市场上直接买空所有算力。但数据市场是极其分散的。
去现实经济中收集”前沿质量(Frontier-quality)“的数据极为复杂。你必须处理政府法规,必须与不同的企业逐一谈判数据使用条款(Terms of use),这令人十分头疼。
关键结论:如果你能制造出一个数据效率提高1000倍的模型,那么它在经济中的部署难度将降低1000倍。
哲学视角:AI民主化
04:21打破数据垄断,改变世界格局**- 演讲者提出了一个”哲学层面”的理由。
- 现今世界上能训练AI大模型的公司寥寥无几,这不仅是因为算力集中,更是因为数据集中(Centralization of data)。
- 示例:演讲者提到传闻中一些顶级AI实验室(如Neo labs)为了获取特定的训练数据创造新能力,甚至会直接买下陷入财务困境的实体书店,或者前往稀有的老旧图书馆,仅仅是为了收集训练前沿模型所需的那一点点”壁龛(Niches)“数据。
- 重要引述:“If you care about the shape of the world to come, I think you really should care about data efficiency.”(如果你关心未来世界的形态,我认为你真的应该关心数据效率。)
- 视觉参考:屏幕展示了一个矩阵方块图(标题:数据效率使AI民主化)。左侧一小列蓝色方块代表”今天能训练AI模型的公司”,右侧一大片深色方块代表”今天只能消费/使用AI的公司”。数据效率的提升将使更多的公司能够真正参与到 AI 模型训练的革命中,而不仅仅是充当消费者。
探索硬件交互的新原语
05:17如何设计新的数据高效AI**他们的核心知识产权(Core IP)是设计新算法,但演讲重点放在了如何”在新的地方寻找新能力”。
方法论:为了开发出全新的高效算法,必须寻找与硬件交互的新”原语(Primitives)”。
图表和视觉参考:屏幕上展示了一个维恩图(Venn Diagram)。外部是一个巨大的浅蓝色圆,标为”GPU能高效做的事情”。内部嵌套了一个深灰色的较小圆圈,标为”当前框架(如PyTorch)能高效表达的事情”。
演讲者指出,大量现有的学术研究都集中在那个灰色小圆圈里。但真正的突破和新能力(Where new capabilities live),隐藏在灰色圆圈之外、浅蓝色大圆圈之内的”处女地”。
术语定义:
PyTorch:目前工业界和学术界最流行的高级深度学习编程框架。
Primitives (原语):操作系统或硬件提供给程序员的最底层、最基本的操作指令集。
Fine-grainedness (细粒度操作):将计算任务分解为极小、极分散、可高度独立执行的微小步骤。由于框架限制,这在当前的PyTorch中很难实现,但GPU硬件本身完全有能力高效处理。
06:09历史的证明**演讲者回顾了过去15到100年的AI发展史。很多重大的算法突破(例如 DistBelief, Transformers, FlashAttention)本质上都是找到了新的、与底层硬件交互的原语,而不仅仅是依靠开发新芯片。
他们在 Flapping Airplanes 要做的就是深入这层”处女地”,榨干现有 GPU 技术的潜力。
突破现有框架的局限
06:25深入底层架构(Into the weeds)**Ben 提到他在博士期间研究的 Mega kernels(巨型内核),就是试图让 GPU 做”非常奇怪的事情”。现在他们正在精神层面上向更深处推进。
为什么现有框架局限了算法?
当前机器学习框架易于使用的代价是:它们在高度并行的处理器上综合抽象出了一个单线程编程模型 (Single-threaded programming model)。
当你写代码时,你写的是按顺序执行的块:首先执行 Matmul,然后 Attention,接着再次 Matmul,最后 RMSNorm。底层软件进行了无数扭曲变形的转换,将其分配给GPU并行处理。
术语定义:
Matmul (Matrix Multiplication / 矩阵乘法):神经网络中最核心、最耗时的基础数学运算。
Attention (注意力机制):评估和赋予不同数据片段(如句子中的不同单词)不同权重和相关性的计算步骤。
RMSNorm (均方根归一化):一种用于使神经网络内部数值稳定,从而加速模型训练的数学操作。
图表和视觉参考:
屏幕首先展示了一个整齐的、按顺序排列的图:蓝框(Matmul) -> 橙框(Attention) -> 蓝框(Matmul) -> 绿框(RMS Norm)。这是”世界目前使用系统的方式”。
接着,屏幕切换成两张极其复杂、神经元节点异步交叉、甚至出现乱序和局部循环的复杂网络连线图(标题:“Or this”)。演讲者说明,如果你想运行这种高度异步和精细网络结构的模型,现有的框架根本无法有效表达。
内部虚拟机演示
07:43虚拟机 (Virtual Machine) 技术预告**演讲者展示了他们为了绕过现有框架而自建的底层系统。
他们构建了一个基于虚拟机 (Virtual Machine)的内部框架,直接”接管了整个GPU”。
图表和视觉参考:屏幕展示了一张名为”我们虚拟机的抢先看 (A sneak peek of our virtual machine)“的UI截图。这是一个极度密集的代码/执行追踪图(Trace plot),屏幕上布满了无数细小的、五颜六色的短横线和色块,在时间轴上快速排列。
演讲者解释,虽然展示的不是真实的商业工作流,而是一个风格化的演示,但它展示了一种 Hogwild 风格的训练循环。
术语定义:
Hogwild-style training (Hogwild风格训练):一种允许多个处理器无锁(Lock-free)、异步地更新同一个模型的训练算法,非常适合深度流水线和小批次(Small batch)任务。
Asymptotically inefficient (渐近低效):指当计算规模放大时,现有的PyTorch框架在执行此类复杂任务时,效率会严重下降,消耗不成比例的资源。
核心总结:构建这种直接接管硬件的新型系统,能够”启用”全新的算法。系统优化与算法协同优化(Co-optimization)正是解决数据效率问题的关键。
结语与招聘
08:28呼吁创意人才加入**- 团队自诩为”Creativity-maxxing”(创意拉满/将创意最大化)。
- 他们热烈欢迎具有非传统背景(Unconventional backgrounds)、但有极高创造力的人才加入。
- 幻灯片上展示的趣味团队特征包括:部落冲突(Clash of Clans)世界冠军、现役高中生、国际奥数(IMO)满分得主,以及 1T 模型爱好者。
高层级摘要
在本次演讲中,Flapping Airplanes 公司的创始人 Ben 和 Asher Spector 深入探讨了为何”数据效率”才是解决 AI 渗透至实体经济痛点的真正关键。他们指出,当前的巨型语言模型虽然在搜索和编程领域表现优异,但那是建立在海量甚至可以无限合成的数据资源之上的;而宏观经济中成千上万的长尾任务(如科学发现、供应链物流、机器人)往往严重缺乏训练数据。为了打破由少数巨头把持的”数据垄断”并实现 AI 民主化,他们认为必须跳出如 PyTorch 这种高级且受限的”单线程抽象”框架。通过构建直接接管底层硬件(GPU)的新型虚拟机系统,寻找新的硬件交互原语,他们正致力于实现系统底层架构与前沿算法的协同优化,从而彻底解放计算潜力,研发出所需数据量极小但性能依然强大的新一代 AI 模型。
关键要点列表 (Top 13 洞察)
- 数据充裕领域的繁荣:当前的大模型(LLMs)在搜索和编程上取得巨大成功,根本原因在于这两个领域拥有海量数据(甚至包括无限生成的合成代码)。
- 长尾经济的数据匮乏:真实世界宏观经济中绝大多数有价值的领域(如机器人、医疗、传统供应链)处于严重缺乏前沿训练数据的状态。
- 算力与数据扩展曲线的分歧:算力(Flops)成本正呈指数级下降,且市场同质化易于购买;而高质量数据的收集进展缓慢,受限于法规与繁杂的商业条款。
- 效率放大的杠杆效应:如果能设计出数据效率提高 1000 倍的模型,该模型在传统实体经济中的部署难度和阻力就会下降 1000 倍。
- 数据是目前最大的护城河:当下能训练前沿 AI 的企业极少,原因不仅是算力垄断,更是数据获取的极端内卷(例如为了微小数据去收购破产实体书店)。
- 民主化愿景:如果数据是 AI 寡头格局最大的护城河,那么提升”数据效率”就是实现 AI 民主化、让更多公司参与训练的最有效手段。
- 寻找新能力的”处女地”:如果要开发全新的高效算法,不应仅局限于当前框架能轻松表达的”舒适区”,而应探索 GPU 硬件能做到但框架不支持的”空白区”。
- 硬件交互的全新原语:计算机历史(如 Transformers 和 FlashAttention 的诞生)证明,与底层硬件建立新的交互原语是产生算法飞跃的催化剂。
- 当前框架的抽象代价:PyTorch 等主流框架为了易用性,将并行处理器强行综合成了”单线程编程模型”,极大地限制了复杂网络结构的开发。
- 细粒度(Fine-grainedness)计算的潜力:细粒度的异步图结构算法在当前框架下运行极度低效(渐近低效),但这代表了极其重要的新一代算法方向。
- 虚拟机接管硬件:Flapping Airplanes 通过构建自有的内部虚拟机,完全接管 GPU,绕过框架限制,强行执行底层高度定制的操作。
- 极端的异步训练:利用这种底层接管,他们能够运行类似于”Hogwild风格”的极小批次、深度流水线、无锁并行的复杂训练循环。
- 协同优化(Co-optimization):解决 AI 数据瓶颈的终极答案,在于不局限于单层面的改进,而是将系统底层架构与上层算法进行深度的协同设计与优化。
技术术语词汇表
- Data-efficient (数据高效):指人工智能模型能够以极少量的数据进行学习并达到强大预测性能的能力。
- LLMs (Large Language Models / 大型语言模型):通过处理海量文本数据进行训练的深度学习网络,能够理解和生成自然语言或代码。
- Synthetic Data (合成数据):由计算机程序、算法自动生成的大量模拟数据,在真实世界数据缺乏时作为训练替代品,在代码生成领域尤为常见。
- Flops (Floating Point Operations Per Second):每秒浮点运算次数。用来衡量计算机系统(尤其是 GPU 等 AI 芯片)计算能力的标准化基准单位。
- PyTorch:目前最主流、广泛使用的开源机器学习库之一。它提供高层级的 API 让研究人员快速开发神经网络,但也隐藏了底层硬件的细粒度操作。
- Primitives (原语/底层操作):计算机科学中,由底层系统或硬件直接提供的、不可再分割的最基础操作指令或接口。
- Fine-grainedness (细粒度):在计算机架构和并行计算中,指任务被细分到极其微小的单位。细粒度计算允许更复杂的并行和异步路由,但也对系统的调度提出了极高要求。
- Single-threaded programming model (单线程编程模型):一种编程范式,虽然底层硬件是极度并行的,但框架提供给开发者的视图仿佛是在按严格的单线顺序写代码。
- Matmul (Matrix Multiplication / 矩阵乘法):深度学习中最频繁执行的核心数学基础操作,尤其在全连接层中。
- Attention (注意力机制):Transformer 模型的核心架构组件,用于计算序列数据(如一句话中的各个单词)中不同部分相互之间的关联程度和重要性权重。
- RMSNorm (Root Mean Square Normalization):一种在现代神经网络(特别是大模型)中使用的层归一化技术,它通过限制数据方差来稳定前向传播并加速训练收敛速度。
- Virtual Machine (虚拟机):在本视频语境中,指一种专门设计的软件运行环境或架构层,其目的是脱离现有 AI 框架的束缚,直接在极低层级接管并指挥 GPU 硬件资源。
- Hogwild-style training (Hogwild风格训练):一种著名的用于机器学习的无锁(Lock-free)异步随机梯度下降优化方法。它允许多个线程并行更新模型参数而无需互相等待,适用于处理高度稀疏的系统或极深流水线架构。
- Asymptotically inefficient (渐近低效):计算机复杂性理论术语。意味着随着数据量或计算规模的增加,某种算法或框架执行任务的效率会越来越低,耗费不成比例的时间或资源。
- Mega kernels (巨型内核):一种将多步不同的计算步骤(通常是独立的多个内核操作)强行融合为一个超大计算任务交给 GPU 一次性执行的技术,主要用于减少内存读写频率和内核调度开销。