【读书笔记】Sequoia AI Ascent 2026(八):Ricursive — AI 自主设计芯片与递归自我改进
介绍与核心理念
00:03 神经网络在半导体设计中的崛起
- 关键细节:会议主持人指出,神经网络正在取代许多传统工具,其中最令人兴奋的应用领域之一是芯片设计。在这个领域,神经网络在半导体设计流程的某些部分已经展现出”超越人类(superhuman)“的能力。
- 演讲者介绍:Anna Goldie 和 Azalia Mirhoseini,她们是谷歌 AlphaChip(一款利用AI生成芯片布局的系统)的联合创始人,目前共同创立了新公司 Ricursive Intelligence。
00:42 Ricursive Intelligence 成立背景与核心论点
- 合作背景:两位创始人在过去10年里曾在 Google Brain、Anthropic、DeepMind 等顶级AI机构紧密合作,并在斯坦福大学任教或攻读博士学位。
- 核心论点(Thesis):
- 重要引述:“芯片是AI的燃料,我们应该使用AI来设计、优化和自动化芯片设计过程,并在AI及其物理底层架构之间闭合这种递归的自我改进循环。”
- (注:公司名称”Ricursive”正来源于此”递归/闭环”优化的概念。)
发展里程碑与AlphaChip的落地
01:32 AlphaChip 的历史与成就
- 关键细节:该研究方向始于2018年,团队开发了一个深度强化学习(Deep Reinforcement Learning)智能体,能够生成超越人类水平的芯片布局。
- 发表与落地:该成果发表于权威学术期刊《Nature》(自然)杂志。但最让团队自豪的是它在真实芯片流片(Tape-out)中的实际应用。
- 应用案例:
- 过去四代 Google AI 加速器芯片(TPU)。
- Google 数据中心 CPU(Axion)。
- Pixel 智能手机芯片。
- 自动驾驶汽车芯片。
- 外部企业采用:联发科(MediaTek)等。
Ricursive 公司的三个战略阶段
02:22 视觉参考:PPT幻灯片展示了公司的三个阶段(Phase I, Phase II, Phase III)
- 幻灯片描述:幻灯片分为三列。左侧是”第一阶段:加速芯片设计”;中间是”第二阶段:端到端协同设计(将工作负载模型转化为芯片)“;右侧是”第三阶段:通向ASI(超级人工智能)的路径”。
02:22 第一阶段 (Phase 1):加速现有的芯片设计
- 当前痛点:芯片设计流程中有两项极其耗时的”长板(Long poles)”:
- 物理设计(Physical Design):在芯片画布上放置数十亿个标准单元/晶体管并进行布线。
- 设计验证(Design Verification):验证该芯片逻辑的正确性。
每一项任务都可能耗时高达一年,需要成百上千名人类专家的参与。
高昂的试错成本:据估计,NVIDIA Blackwell 芯片延迟发布一天,公司就会损失大约 2.25 亿美元的机会成本。
目标:帮助现有的芯片制造商更快地将产品推向市场,制造更快、更便宜、更环保的芯片。
03:08 第二阶段 (Phase 2):芯片设计的民主化
- 关键细节:将公司转变为一个新硬件设计平台。
- 工作流程:输入一个”工作负载(Workload)“(例如下一个云端大模型) -> 设计一个能大规模加速该工作负载的架构 -> 完成整个设计流程直至输出 GDSII 格式。
- 目标客户:任何拥有足够规模特定工作负载的公司,即使他们没有成百上千人的硬件专家团队,也能从定制芯片中受益。
03:48 第三阶段 (Phase 3):垂直整合
- 愿景:既然具备了快速设计高性能芯片的能力,Ricursive 计划自主构建芯片并训练自己的AI模型,使两者共同进化(co-evolve),从而以市场上无法匹敌的成本或能力提供智能服务。
技术方法与创新(Inner Loop vs. Outer Loop)
04:13 视觉参考:从点级解决方案到递归自主性 (From Point Solutions to Ricursive Autonomy)
- 幻灯片描述:展示了复杂的传统芯片设计流程图(从架构设计、RTL开发、综合、布局布线到最终的签收签署)。右侧强调了传统的商业工具耗时极长。
04:41 解决思路:重新设计工具栈
内部循环(Inner Loop):
动作:重新设计基础芯片工具(如 STA),使其运行速度比现有商业工具快 100,000 倍。
示例与视觉参考:STA(静态时序分析)引擎:PPT展示了一个散点图(Predicted vs Ground Truth)。团队展示了他们构建的高保真 STA 工具与领先的商业工具高度相关(相关性 > 0.999),但在几毫秒内即可运行完毕(快了1000倍以上)。
外部循环(Outer Loop):
动作:AI/RL 智能体利用这个极快的工具作为环境。因为 AI 非常喜欢快速的迭代循环,更快的内部工具能让 AI 获得海量的反馈信号(Feedback signal)从而指数级地学习和优化。
成果:在巨大的设计空间中实现多维度的协同优化,大幅提升性能并缩短上市时间。
行业范式转移:进入”无设计”时代
06:18 范式转移:从 Fabless 到 Designless
- 类比与隐喻:Fabless(无晶圆厂)模式。
- 解释:演讲者借用台积电(TSMC)开创的”无晶圆厂”模式作为类比。台积电负责制造,让Nvidia和Apple等公司可以专注于”设计”。
- 隐喻目的:引出 Ricursive 的商业模式。Ricursive 将开创 Designless(无设计) 时代——客户公司只需专注于应用层和模型层(提供工作负载需求),Ricursive 扮演设计和硬件计算平台的角色。
07:08 视觉参考:寒武纪大爆发 (Cambrian explosion of chips)
- 幻灯片描述:左侧展示了”今天:通用、昂贵的主流芯片”;右侧展示了”Ricursive:更便宜、专用的芯片设计呈树状发散”,应用于空间计算、自动驾驶、AI推理和机器人等领域。
- 隐喻:寒武纪大爆发。
- 解释:生物学上物种种类突然剧增的时期。
- 隐喻目的:说明通过大幅降低芯片定制的门槛,未来几年市场上将涌现出海量种类繁多、针对特定任务高度优化的专用芯片(例如超低功耗芯片、超高吞吐量芯片等)。
问答环节 (Q&A)
08:38 问题1:AI生成的芯片布局形状是什么样的?
- 回答:与人类工程师倾向于对齐的、极其规整的网格布局不同,AI 生成的布局具有弯曲的、有机(organic)的形状。
- 重要洞察:这种”有机”形状实际上最小化了布线长度(wire length),提高了性能。这在最初向物理设计工程师展示时让他们感到非常震惊。
09:12 问题2:定制芯片的规模经济如何运作?制造数千种不同芯片能像单一的 Hopper 架构那样便宜吗?
- 回答:团队正在引入一个新的”旋钮(knob)“——计算力(Compute)。通过扩展计算能力(跑AI算法),他们大幅压缩了芯片的设计时间和成本。
- 关键细节:鉴于 AI 工作负载的巨大规模,经济效益会自动显现。对于运行前沿模型(Frontier model)的芯片,哪怕只有 1% 的性能提升,也会带来海量的收益。
总结
视频高层级摘要
本视频中,AlphaChip的联合创建者 Anna Goldie 和 Azalia Mirhoseini 介绍了她们创立的新公司 Ricursive Intelligence。该公司的核心愿景是使用人工智能来彻底变革和自动化芯片设计流程。通过将底层验证工具的速度提升100,000倍(内部循环),并利用深度强化学习智能体进行海量迭代优化(外部循环),Ricursive 旨在解决传统芯片设计耗时一年且耗资巨大的痛点。她们提出了从”无晶圆厂(Fabless)“向”无设计(Designless)“演进的范式转移,致力于成为一个硬件生成平台,让任何有规模化AI工作负载的公司都能拥有定制的极速芯片,从而引爆专用芯片的”寒武纪大爆发”,并最终实现软件模型与硬件芯片垂直整合的自我进化循环。
关键要点列表 (Top 12 洞察)
- AI取代传统工具:神经网络在芯片设计的物理布局等环节已经表现出超越人类专家的水平。
- AlphaChip的验证:AI生成的芯片设计不仅停留在学术界(Nature论文),已成功在多代Google TPU、Pixel手机及自动驾驶芯片中流片验证。
- 高昂的时间成本:芯片设计中单纯一天的延迟(如NVIDIA Blackwell),机会成本损失可能高达2.25亿美元。
- 两大”长板”痛点:目前芯片设计流程的瓶颈主要在于”物理设计(布局和布线)“与”设计验证”。
- Ricursive的三阶段战略:阶段一:加速现有芯片设计;阶段二:民主化芯片设计(自动将工作负载转为硬件);阶段三:垂直整合(自研模型与芯片)。
- 指数级速度提升(内部循环):Ricursive 重新设计了如 STA(静态时序分析)等基础设施工具,使其运行速度比商业工具快 100,000 倍。
- 强化学习优化(外部循环):超快的底层工具为 AI 智能体提供了高频反馈,使其能在庞大的解空间中寻找最优芯片架构。
- “无设计 (Designless)“时代:类似于台积电开创的Fabless模式,Ricursive 希望让软件/AI公司免去组建百人硬件团队的烦恼,由Ricursive包揽设计。
- 芯片的寒武纪大爆发:未来的市场需求不是几款通用芯片,而是大量针对特定任务(低功耗、高吞吐等)高度定制的专用芯片。
- 定制化带来的微观经济学:在大规模AI算力需求下,哪怕是针对前沿模型定制芯片带来1%的性能提升,也意味着巨大的经济回报。
- 突破常理的设计美学:AI设计的芯片布局看起来是”弯曲的、有机的(organic)“,而不是人类工程师设计的规整网格,但这能最小化布线长度并提高性能。
- 算力换人力:通过将计算资源作为优化变量,可以显著降低长达一年的研发时间和巨额的人力成本。
视频中技术术语词汇表
- Neural Nets (神经网络):一种受人类大脑启发的计算机架构,是现代人工智能的基础。
- Tape-out (流片):集成电路设计生命周期中的最后一个步骤,即完成最终设计并将其发送给制造工厂(Fab)进行物理制造。
- TPU (Tensor Processing Unit / 张量处理单元):Google 开发的一种专为加速机器学习工作负载而设计的定制专用集成电路 (ASIC)。
- Data center CPU (数据中心中央处理器):专门针对大规模云服务器和数据中心环境优化的高性能通用计算芯片。
- Physical Design (物理设计):将电路逻辑转换为芯片上物理布局的过程,包括确定晶体管的位置(布局/Placement)和连接它们的导线路径(布线/Routing)。
- Standard Cells (标准单元):芯片设计中预先设计好的基本逻辑功能块(如与门、非门等),像搭积木一样被用于芯片构建。
- Design Verification (设计验证):确保设计的芯片逻辑完全正确且无错误的过程,是一个极耗算力和人力的环节。
- GDSII (或GDS2):半导体行业中用于集成电路版图数据交换的标准文件格式,是设计完成后提交给晶圆厂的最终图纸。
- Fab (Fabrication Plant / 晶圆制造厂):实际制造硅芯片的物理工厂,如台积电 (TSMC)。
- Sign-off (签收/签署):芯片设计过程中,所有检查(时序、物理规则等)通过,确认设计可以安全发送制造的最终确认步骤。
- RL (Reinforcement Learning / 强化学习):机器学习的一个分支,AI 智能体通过在环境中采取行动以最大化累积奖励(反馈)来学习策略。
- STA (Static Timing Analysis / 静态时序分析):一种不依赖输入激励来计算数字电路预期时序行为的仿真方法,用于确保信号能在正确的时间到达芯片的各个部分。
- Fabless (无晶圆厂):一种商业模式,公司只负责设计和销售芯片,而将实际的芯片制造外包给专职的代工厂。
- Workload (工作负载):计算机系统需要处理的任务量或计算类型,例如”训练前沿AI模型”或”自动驾驶视觉推理”。
- Frontier Model (前沿模型):指当前最先进、参数量最大、能力最强的人工智能大模型。
- Hopper Architecture (Hopper架构):Nvidia 推出的一种极其先进且昂贵的通用 GPU 架构(如 H100),主要用于 AI 计算。