【读书笔记】Sequoia AI Ascent 2026（一）：Keynote — 这是 AGI 时代

2026-05-13 31 min

返回首页

技术浪潮的历史演进 (Pat Grady)

00:02 欢迎与致辞

关键细节：Pat Grady 欢迎参会者，强调当下正处于重要的历史转折期，红杉资本将本次活动视为一个供社区聚集、交流和校准认知的重要平台。

01:11 宏观校准：叠加的技术浪潮

图表与视觉参考：屏幕展示了一张“技术浪潮（Waves of Technology）”的时间线曲线图。从 1960 年代的硅基半导体（Semiconductors）开始，依次演进到 1980 年代的网络（Networks）、1990 年代的互联网（Internet）、2010 年代的云和移动应用（Mobile/Cloud），最终指向 2020 年代的 AI（人工智能）。
关键细节：这几代技术浪潮是叠加的（additive）。我们必须依赖过去几十年积累的计算能力、带宽、数据和人才，才能托举起今天的 AI 浪潮。

01:59 AI 浪潮与过去的三个不同之处

02:15 特点 1：史上最大的浪潮 (The Biggest Wave Yet)

图表与视觉参考：屏幕展示了两个对比饼图。上排显示了云技术转型前 15 年的软件总潜在市场规模（TAM），从 3500 亿美元增长到 6500 亿美元（其中云占据 4000 亿）。下排展示了一个全新开启的巨大绿色区域，标记为“10,000”（10 万亿美元）。
关键细节：AI 浪潮是历史上第一次同时涵盖软件（Software）和服务（Services）的浪潮。10 万亿美元是一个保守且方便的整数估计。作为对比，仅美国单地的法律服务市场就是一个 4000 亿美元的市场，这一个垂直领域就等同于过去全球整个软件市场的总和。

03:01 特点 2：史上最快的浪潮 (The Fastest Wave Yet)

图表与视觉参考：展示了“White Space（市场留白）”图表，上面布满了在云、移动以及现在的 AI 时代中极速达到 10 亿美元收入的标志性公司 Logo。
关键细节：AI 领域的市场空白正在被前所未有的极速填满。

03:33 特点 3：计算的革命 (A Revolution in Computation)

关键细节：在座大多数人只经历过“通信的革命（Revolutions of Communication）”（如互联网、云计算、移动设备），它们的本质是信息如何分发。而 AI 是“计算的革命”，它关乎信息如何被处理。从波形的结构和本质上讲，这二者有根本的区别。

04:18 底座技术的极速演变与三大拐点

隐喻：“脚下的地板在不断移动（The floor keeps moving underfoot）”——形容开发者所依赖的技术基座每天都在因为新能力的涌现而发生变化。
三大拐点时间线：

2022 年 11 月 - ChatGPT 时刻：世界看到了“预训练（Pre-training）”的威力。
2024 年 12 月 - OpenAI o1 模型：证明了“推理（Reasoning）”的能力，出现了围绕“推理时计算（Inference time compute）”的第二缩放定律。
2025 年 11 月 - Claude Code + Opus 4.5（以及如今的 4.7）：世界看到了“长周期代理（Long-horizon agents）”的威力。

05:06 重新定义 AGI（商业与实用视角）

定义：作为风险投资家，Pat 从功能性和商业的角度给出了 AGI 的定义：如果你能派遣一个代理（Agent）去完成一项工作，它能够从失败中自动恢复（recover from failure）并坚持不懈，直到该项工作彻底完成——在商业体感上，这基本上就是 AGI。

05:54 类比：“汽车已经到来”

类比与隐喻：“更快的马（Faster horses）”对比“汽车（Cars）”。
使用原因：过去几年的 AI 应用像是“更快的马”，能让你提高 10% 到 40% 的生产力，但不改变你的工作本质；而现在的长周期代理是“汽车”，能带来 10 倍到 40 倍的提升，彻底改变工作和组织的性质。

给创始人的策略与建议：“Get MAD” (Pat Grady)

06:21 “那又怎样？”（So What?）

重要引用：红杉创始人 Don Valentine 最爱问的一个问题：“So what?”（这有什么意义？）
关键细节：这意味着一场不同类型的竞赛已经开始。这 10 万亿美元的市场争夺战有两条路径：实验室采用的“自技术向外（Tech-out）”路线，和初创公司采用的“从客户反推（Customer-back）”路线。

07:29 MAD 策略框架

为在模型之上构建应用的开发者提供的建议缩写：MAD。
M - Moats（护城河）：
关键细节：面对底层技术疯狂演进，不应盯着底层技术找护城河，而应该向上看——从客户反推。你的产品明天就可能过时，但你将自己“包裹在客户周围”的深度和客户关系，将是更持久的护城河。
A - Affordance（直觉性/启示性设计）：
类比与隐喻：给两岁的儿子一把锤子，他本能地就知道拿去砸东西。这就是锤子自带的“Affordance”（不需要解释，人们就知道怎么用）。
使用原因：Claude Code 很强大，但对普通世界 500 强员工来说毫无直觉性。应用层开发者的机会在于为特定客户创建“阻力最小的路径（Paths of least resistance）”，让产品变得像锤子一样“无脑简单”。
D - Diffusion（扩散差距）：
关键细节：新技术的“扩散（Diffusion）”速度远远低于这些技术被“创造”出来的速度。由于 500 强企业吸纳新技术非常慢，这个“扩散差距（Diffusion Gap）”就构成了应用层公司的巨大机遇。

11:19 重要引用：雨中超车

重要引用：赛车界俗语：“You cannot pass 15 cars in the sun, but you can pass 15 cars in the rain.”（“你不可能在晴天超越 15 辆车，但你可以在雨天超越 15 辆车。”）
使用原因：当前模型能力的爆炸就像一场“倾盆大雨”，在这样的技术混沌期，没有谁的领先优势是绝对安全的，这也意味着现在的初创公司都有超车制胜的机会。

代理（Agents）的爆发与演进 (Sonya Huang)

11:57 代理元年

Sonya 明确指出，2026 年 AI 领域发生的最重要的事情就是代理（Agents）的全面铺开。

12:10 回顾 2022 年的失败尝试

关键细节：曾有基于 GitHub 的爆款项目如 AutoGPT 和 BabyAGI，它们把 GPT-3 和工具放在一个循环中试图让它奔向目标。它们不断失败，看起来很可爱，但完全没用。因为那时的模型还不成熟。

12:52 今天：代理的民主化

关键细节：在今年（2025/2026 年之交），代理开始真正生效并无处不在。Claude Code 攻克了技术人群，而 OpenClaw 则让任何拥有手机的普通人（Normie）都能创建代理。
例子：能够自动举报邻居税务欺诈的税务代理、自主运行的生成式媒体营销代理，以及 Sequoia 内部为提高工作效率而竞相构建的各类专业代理。

13:46 代理的定义与三大构成组件

定义：一个代理是一个能感知其环境、选择动作，并自主向目标推进的系统。（这部分视频的背景演示动画是 Sonya 亲自用 Sea Dance 生成模型独立制作的）。
三个功能性组件：

推理与规划 (Reason and plan)：代表模型实时的基线直觉与思考能力。
采取行动 (Take actions)：诸如搜索、编写、编译工具的能力。
迭代目标 (Iterate towards a goal)：代表持久力（Persistence），让代理在漫长的时间周期内不放弃。

总结概括：这三者结合起来就是“Get shit done（把事情办成的能力）”。

14:45 代理演进的底层支撑（大脑、四肢与控制带）

模型（大脑）：最核心的进展是模型能够在极其复杂的任务上维持性能而不会“脱轨”，其稳定运行的时长已经从一年前的几十分钟，上升到了现在的“数小时”。
工具（胳膊和腿）：终端文件系统、Slack、iMessage 等软件接口。SaaS 并没有死，由于海量代理的调用，这些工具的价值将产生大爆炸。
安全带/控制框架（Harnesses）：利用强化学习（RL），在虚拟的“强化学习训练场（RL gyms）”中给代理上驾校，大幅提升其执行长期任务的容错率。

16:16 自我进化（Self-improvement）初现

例子：Andrej 的研究项目能够在短短 2 小时内，通过自主研究自我改进到一个 GPT-2 级别的模型。机器开始构建机器。

16:40 代理化程度的滑动量表（Sliding scale of Agentness）

视觉参考：图表展示了自动化从人类主导向 AI 主导演变的几个阶梯。
进化层级：

Tab Autocomplete (2023)：AI 仅仅是伴随在人类身边的代码补全工具。
Agentic Development：人类开始向代理下发指令。
Background/Async Agents：后台异步代理，代理开始生成并管理子代理。
Dark Factories（黑灯工厂/无灯工厂）：处于前沿的最极限。系统完全移除人类的审查环节，直接将代码自主推向生产环境（Prod）。这甚至已在网络安全公司中成功生产部署。

类比：代理经历了从小助手 -> 需要被管理的实习生 -> 能够自我管理的实习生 -> 最终完全脱离人工监督的自主系统。

“服务是新的软件”及代理的经济学 (Sonya Huang)

18:02 新形态的劳动力替代

关键细节：由于代理能力的成熟，“服务即软件”正在成为现实。
医疗：雇佣代理检查个人基因组，开处方，推荐临床试验。
法律：雇佣代理代为谈判合同甚至进行诉讼和解。
科学研究：代理能够解决埃尔德什（Erdos）数学问题或探索新的超导体。
消费端：打理收件箱、日历、税务、财务。

18:49 人类员工 vs 代理的悬殊对比

人类难以扩展，而代理凭借算力具有无限的扩展性（infinitely scalable）。
人类情绪需要被安抚，而代理维护成本极低（low maintenance）。
人类需要支付高昂的工资（Salaries），而代理只需支付极其廉价的 Tokens（词元）。
总结：在成本经济学和天然可扩展性的双重驱动下，应用层采用代理的速度将是史无前例的快。

19:43 极速变异的未来商业

关键细节：当代理呈超指数级增长，代理之间开始进行商业支付、互相谈判交易条款，甚至建立由代理组成的“蜂群警察”来防范网络安全时，世界即将陷入一种真正奇妙且怪异（Weird）的状态。

20:13 被非线性压缩的开发时间线

例子：
Zed 的 Nathan 用 Claude Code 在假期里单枪匹马完成了一个 3 年的项目。
Brett Taylor 在一个周末内重建了 Sierra 的代码库。
Notion 团队在 6 周内重写了 800 万行代码。
重要引用：“Whatever you can imagine building over the next hundred years we think is now possible in a 100 days thanks to agents.”（“无论你能想象在未来 100 年内构建什么，我们认为由于代理的存在，现在完全可以在 100 天内实现。”）

认知革命与未来展望 (Constantine Buhler)

21:07 工作本质的二分法：物理 vs 认知

物理工作（Physical work）：等于力乘以距离（Force × Distance）。如驿马快递的包裹，或发射猎鹰 9 号的火箭。
认知工作（Cognitive work）：大脑有意识的思考。如毕达哥拉斯推导定理，或 DeepMind 解决蛋白质折叠难题。这两种工作正在经历相似的革命轨迹。

21:28 工业革命与认知革命的历史对齐

图表与视觉参考：展现工业革命和认知革命两张历史演进图。
工业革命：几个世纪前，所有的物理工作都依靠人类或动物肌肉。在经历了水力、风力、蒸汽机、电动机的演变后，到了今天（2026 年），地球上 99% 以上的物理工作都是由机器代劳的。
认知革命：大部分人类历史中，所有的思考工作都由人类完成。经过百年的电子计算机演进，未来，神经网络（Neural network）的这波巨浪将导致地球上 99.9% 的认知工作将全部交由机器来完成。

24:52 面对未来的四个短篇故事

25:04 故事一：铝与电解法（关于技能廉价化）

历史事实：1800 年代中期，美国用当时世界上最珍贵的金属——铝（Aluminum）——封顶了华盛顿纪念碑（该金属甚至在曼哈顿的蒂芙尼作为奇珍展出）。然而几十年后，发明了从泥土中分离铝的电解法（Electrolysis）。很快，铝变得极其廉价，被用来包裹三明治，用完即丢。
隐喻：铝代表智力（Intelligence），电解法代表人工智能（Artificial Intelligence）。那些曾经需要耗费几十年光阴获得的博士级别（PhD level）的脑力技能，将被瞬间调用并廉价化，随时被揉成一团“扔进垃圾桶”。

26:27 故事二：外星人设计（Alien Design）

例子：2006 年 NASA 设计卫星天线。人类直觉设计出的是完美对称的几何形状天线。但后来他们引入了依赖强化学习的进化算法交给计算机进行设计。
图表与视觉参考：展示了计算机设计的天线，它呈现出一种怪异的、非对称的、如同树枝或骨骼般的网状结构，不符合人类的几何直觉，但性能却极具优势。
启示：当我们将认知交给机器时，结果将超出我们的直觉。无论是芯片、汽车还是建筑物，由 AI 输出的设计将呈现出一种“外星异形（Alien）”的特质。

27:55 故事三：新兴科学（Emerging Sciences）

历史事实：早期工业革命的几十年是“修补（Tinkering）”的时代。工程师们（如瓦特）通过不断调配活塞、燃料来改善蒸汽机效率，但并没有系统的科学理论。直到 120 年后，萨迪·卡诺（Sadi Carnot）才将这一切提炼升华为一门全新的基础科学：热力学（Thermodynamics）。
隐喻：目前拥有千亿参数和万亿 Token 的 AI 界，即使发现了“缩放定律”，也仍然处于早期的“修补（Tinkering）”阶段。在未来的几十年内，一定会有人确立一门像热力学一样绝对基础的全新科学，用来完美解释并掌控 AI 乃至人类的“意识（Consciousness）”。

29:27 故事四：非理性之艺术（The Art of Unreason）

历史事实：艺术在几万年来一直是向着“现实主义/逼真度（Realism）”狂奔。但随后摄影术（Daguerreotype）的出现，使得机器一瞬间抹杀了画师毕生修炼的还原现实的笔触技能。
启示：人类是如何回应摄影术的？人类不再去竞争“眼睛看到的东西”，转而去捕捉“心灵和灵魂看到的东西”。由此诞生了印象派、表现主义、立体主义。这是人类在面对科学剥夺其手艺时，向意义本源发出的伟大的二次进化。

31:06 结语：不变的人类核心

重要引用：2500 年前的希腊哲学家普罗泰戈拉（Protagoras）的名言：“Man is the measure of all things.”（“人是万物的尺度。”）
关键细节：无论铝有多便宜，或智力有多强大，如果没有人类的体验作为基底，它们在真空中就毫无价值。AI 会做所有的苦工，但只有“人与人的连接（Human Connection）”才能为你提供在乎这一切的理由。
结论：十年后工作会面目全非，但今天你坐在台下与周围人建立的人际连接关系将坚如磐石，这将是未来世界中最宝贵的财富。

结尾总结部分

一段关于视频的高层次总结

本场来自 Sequoia Capital 2026 年 AI Ascent 大会的主题演讲，系统性地宣告了 AGI（通用人工智能）在商业层面的实质性降临。演讲者们从宏观、中观和微观三个维度深刻剖析了当下的技术巨变：宏观上，AI 实现了从信息“分发”到信息“处理”的计算革命，打开了规模达 10 万亿美元的人类“服务”市场；中观上，以 Claude Code 和 OpenClaw 为代表的“长周期代理（Agents）”已经民主化，应用层正从“人类辅助”狂飙突进至完全自主运行的“黑灯工厂”；微观上，随着 AI 将地球上 99.9% 的认知劳动自动化，传统的博士级心智技能将面临如工业铝一般的“极度廉价化与商品化”。最终，这场技术奇点在剥夺人类脑力劳动的边界时，也将倒逼人类从单纯的效率工具中解放出来，回归到“人与人的情感连接”这一不可替代的宇宙尺度之中。

关键要点列表（15 个核心见解）

技术的最高叠加态：当前的 AI 奇点并不是孤立的，它叠加了半导体、互联网、云和移动技术数十年来的算力、带宽和数据积累。
服务即软件的万亿蓝海：AI 浪潮是首个同时涵盖软件与服务的技术浪潮，正在吞噬法律、医疗等纯人类服务业，潜在市场高达 10 万亿美元。
AGI 的商业实质已经达标：当代理能够被分配任务、并在长周期中自主纠错直至目标达成时，商业意义上的 AGI 就已经到来。
不要在雨中踩刹车：模型能力的爆炸就像一场暴雨，洗牌期意味着任何人都有超车获胜的机会，没有任何旧霸主的领先是安全的。
构建基于客户而非技术的护城河：底座技术随时在变，建立应用层护城河的方法不是死磕自下而上的技术突破，而是从客户痛点反推，深度绑定客户关系。
打造“锤子”般的直觉性（Affordance）：强大的模型只有被封装成无需解释、路径阻力最小的工具，才能真正渗透进世界 500 强企业的日常运作。
技术落地存在巨大的“扩散滞后”：前沿模型能力的推陈出新与企业接纳吸收的速度之间存在巨大落差，这是初创公司巨大的套利空间。
代理（Agents）的三合一飞轮已闭环：通过集成“推理规划”、“动作执行”和基于强化的“迭代坚持力”，2026 年的代理已经真正具有了解决复杂事务的能力。
被颠覆的人才经济学：代理具有无限可扩展性、零管理情绪成本，且用廉价的 Token 取代了昂贵的薪水，这将引发企业组织架构的根本性重塑。
百年代码被压缩至百天：长周期代理使得单兵作战的工程师可以在几周内重构数百万行代码，或者在假期完成原本需要数年的项目。
向着“黑灯工厂”演进：自动化程度正在从简单的补全助手，不可逆地走向完全移除人类审查的完全自主部署阶段。
认知的自动化将达到 99.9%：正如工业革命让机器接管了所有体力劳动，AI 将主宰地球上绝大部分的认知劳动。
高阶智力的商品化坠落：曾经极其稀缺的高级人类心智技能（如博士级别的专业知识），将经历类似“电解铝”的过程，变得唾手可得且极度廉价。
未来的设计充满“异形”感：当机器主导物理和架构设计时，输出的结果将不再符合人类大脑追求的几何对称直觉，而是呈现高度优化的非理性形态。
AI 倒逼人类找回灵魂价值：正如摄影术的出现摧毁了写实绘画，却催生了印象派。AI 接管世俗的逻辑推理后，人类将转而通过情感、艺术和人际纽带寻找存在的根本意义。

视频中的技术术语词汇表

AGI (Artificial General Intelligence / 通用人工智能)：视频中从商业角度重新定义为：能够在没有人工干预的情况下，接受目标、自动修正错误、坚持并彻底完成长周期任务的自主智能系统。
TAM (Total Addressable Market / 总潜在市场规模)：一项产品或服务在市场上可获得的最大收入机会，此处指代被 AI 切分的软件市场和传统人工服务市场的天花板。
Pre-training (预训练)：AI 模型生命周期的第一阶段，在海量无标注数据上进行训练以学习语言和世界的底层模式（指代引发 ChatGPT 时刻的基础技术）。
Inference time compute (推理时计算)：模型在生成响应（推理阶段）时所消耗的额外计算资源。视频中指代 OpenAI o1 模型通过延长思考时间来大幅提升复杂推理能力的技术路径。
Agents (代理/智能体)：能够感知所处环境、自主选择要执行的动作，并为了实现特定目标而进行长期迭代操作的自动化系统。
Moats (护城河)：借用商业战略术语，指一家应用层公司用来保护自身长期利润、避免被底层模型提供商或其他竞争对手轻易取代的核心竞争优势。
Affordance (启示性设计/直觉性)：源自工业设计，指物体的属性本身就暗示了其操作方式（如看到锤子的把手就知道怎么握）。视频中指代 AI 应用应当做到无需培训、“无脑使用”的极简体验。
Diffusion gap (扩散差距)：基础大模型的强大能力被创造出来的极速，与这些能力实际扩散到传统大企业和消费市场的极低速度之间形成的时间差与套利空间。
RL (Reinforcement Learning / 强化学习)：一种机器学习范式，系统通过在环境中不断试错，利用设定的奖励和惩罚机制来训练系统做出最优决策。
RL gyms (强化学习训练场)：指代用于训练、测试和评估强化学习代理策略的虚拟模拟环境，就像代理的“驾校”。
Agentic Development (代理化开发)：一种颠覆传统的人机协同编程模式。人类开发者不再逐行编写代码，而是通过高级指令指挥和调度 AI 代理，由后者自动分析、编写和排错。
Dark Factories (黑灯工厂/无灯工厂)：原本指无需人工照明的全自动化无人制造车间。视频中借指由于代理极端可靠，系统运行已经完全剔除了人类审核环节，能全自动将代码或功能推向生产环境（Prod）的终极自动化状态。
Electrolysis (电解法)：一种利用电流分离化合物的化学过程。视频中被用作一个强烈的隐喻，代表那种能将极其昂贵、稀缺的物质（铝/智力）瞬间商品化、平民化甚至廉价化的颠覆性技术手段。
Thermodynamics (热力学)：研究热和功转化关系的基础物理学分支。视频中用来代表未来将会出现的一门能够彻底解释 AI 缩放定律和意识本质的完备基础科学理论。
Tokens (词元)：大语言模型处理自然语言的最小原子单位。视频中以此作为雇佣“硅基员工（AI 代理）”所支付的算力货币的代名词，用来与人类员工昂贵的“薪水（Salaries）”做经济学对比。

学习笔记 AI前沿