【读书笔记】Sequoia AI Ascent 2026(七):StarCloud — 为什么最廉价的算力将在太空

18 min

演讲者介绍与StarCloud 1的初步部署

00:02

  • 演讲者介绍:Philip Johnston,StarCloud的联合创始人兼CEO。
  • 核心概念:公司正在太空中构建数据中心,其主要驱动力是为了获取更高效、更低成本的能源。
  • 重要引述:“就像上一家公司一样,我们也在以违背GPU设计初衷的方式’滥用’它们。”
  • 视觉参考 1:演讲者展示了一段名为”StarCloud 1”的卫星部署视频。视频中,一个立方体形状的小型卫星在地球为背景的太空中从运载火箭上分离。演讲者指出这种部署视频往往很难拍好,因为经常会部署到阴影区。
  • 关键硬件:StarCloud 1 搭载了5个Nvidia(英伟达)GPU,其中最关键的是 Nvidia H100 芯片
  • 技术突破与意义:在此之前,人们普遍认为无法在太空中运行先进的地面数据中心级GPU,原因有二:
  1. 热耗散 (Thermal Dissipation):GPU功率密度极高,会产生大量热量。
  2. 辐射耐受性 (Radiation Tolerance):宇宙辐射会导致高频率的”比特翻转”(Bit flips)。

01:22

  • 里程碑成就:凭借这一部署,StarCloud创造了多项”第一”:
  • 第一个在太空中训练AI模型的团队(训练了Andrej Karpathy的Nano GPT)。
  • 第一个在太空运行Gemini版本的团队。
  • 第一个在太空对 SAR数据 进行高功率推理的团队。

为什么要在太空中建立数据中心(与地球的成本比较)

01:46

  • 示例和类比:演讲者将”在地球上建太阳能发电项目”与”在太空中建同等规模的太阳能项目”进行了类比对比,以此来解释为什么在太空建数据中心在能源成本上很快会更有意义。
  • 地球上的三大核心成本
  1. 许可土地的成本 (Permitted Land):在北美,这通常是新建太阳能项目的最大成本。
  2. 电池储能和备用电源成本 (Battery Storage & Backup Power):地球上每天只有约4小时的峰值日照,需要电池将白天电量存储供夜间使用。
  3. 太阳能电池本身的成本 (Solar Cells)
  • 太空中的成本优势
  1. 不需要购买许可土地(最大成本消失)。
  2. 不需要电池储能和备用电源,因为卫星24/7全天候处于日照中(第二大成本消失)。
  3. 需要的太阳能电池板数量是以往的八分之一(1平方米的太空太阳能板产生的能量是地球表面的8倍)。
  • 盈亏平衡点 (Break-even Point):太空中的主要额外成本是发射成本。当发射成本降至土地、电池和太阳能板的总成本以下时,太空方案就赢了。
  • 当前数据:盈亏平衡发射成本约为 $500/公斤(相比现在需要降低10倍)。
  • 未来预期:SpaceX的Starship(星舰)旨在将发射成本降至 1010 到20/公斤,远远低于盈亏平衡点。

未来规划:88,000颗卫星星座

03:20

  • 星网规划:StarCloud已向FCC申请建设一个由 88,000 颗卫星 组成的星座。每颗卫星功率约 200千瓦 (kW)。

  • 算力规模:该网络将部署约 20 吉瓦 (GW) 的新计算能力。

  • 主要用例:全部用于推理工作负载 (Inference Workloads),包括生成3D视频、后台业务处理代理、代码生成代理等。

  • 轨道设计晨昏太阳同步轨道 (Dawn-dusk Sun-synchronous Orbit)

  • 解释:这使得卫星始终处于太阳照射下,实现24/7的连续电力供应。

  • 连接与延迟:通过光学链路互联(光通信),对地球上任何地方的延迟低于 50毫秒 (sub-50ms)。

  • 视觉参考 2:视频展示了一个概念动画——用户在手机上请求”从这5张照片生成3D房屋漫游视频”,信号通过地球上的碟形天线发送至太空。接着画面切入太空,显示地球被巨大的绿色光学通信网络包裹着,卫星在太阳光下协同工作。

  • 经济规模:总资本支出 (Capex) 约为1000亿美元,实际上远低于在地面建设同等规模数据中心的成本。

  • 重要引述:“这不仅是有史以来最大的基础设施项目的开始,在我看来,这也是卡尔达肖夫2型(戴森球类型)文明的起点,乃至可能是卡尔达肖夫3型文明的起点。“


挑战一:热耗散 (Thermal Dissipation)

04:39

  • 问题:太空非常寒冷,为什么散热很难?

  • 原理解释:虽然太空只有 3开尔文 (-270°C,极低环境温度),但因为太空是真空 (Vacuum),没有空气对流来带走热量,只能依靠红外辐射 (Infrared Emission) 来散热。

  • 示例和类比:“所有温暖的物体都在持续发出红外线,如果你用红外相机看我的脸,你会发现我在发光。“(说明通过辐射散热的机制)。

  • 具体算数计算 (Napkin Math)

  • 太阳能板产生能量:约 200瓦/平方米。

  • 散热器(保持在50°C时)耗散能量:约 800瓦/平方米。

  • 结论:散热器的表面积大约需要是太阳能板表面积的四分之一(例如400平米的太阳能板需要额外配100平米的散热器)。

  • 核心物理公式斯特番-玻尔兹曼定律 (Stefan-Boltzmann Equation)

  • 解释:散热速率与温度的四次方成正比。

  • 应用:如果将运行温度从50°C提高到80°C(开尔文温度仅增加约10%),就可以将所需的散热器表面积减半。

  • 解决方案:StarCloud正与英伟达合作开发”Space Reuben 1”芯片,旨在能在更高温度下运行且不会增加故障率,从而减轻散热器的质量/面积。

挑战二:凯斯勒现象与太空拥堵

06:44

  • 问题:发射如此多卫星是否会导致”凯斯勒现象”?
  • 解决方案与观点
  1. 低空飞行 (Low Altitude):首批卫星将在约 400公里 的低空飞行,几个月内会自然脱轨 (Naturally de-orbit)坠入大气层烧毁,因此发生连锁碰撞的几率极低。
  2. 高空轨道的空旷性:较高轨道实际上人迹罕至,直到触及范艾伦辐射带。
  3. SpaceX 案例:SpaceX 已经在近地轨道运营了约10,000颗卫星,没有发生过碰撞,这是依靠复杂的碰撞避免系统。
  4. 视觉误导:演讲者指出,人们看卫星分布图觉得拥挤,是因为图上的一个”点”在比例尺上相当于加州那么大,而实际的卫星非常小。太空广袤无垠,在晨昏同步轨道上轻松容纳太瓦级算力也不会拥挤。

挑战三:宇宙辐射与比特翻转

08:43

  • 问题:你们如何处理辐射导致的比特翻转?
  • 解决方案:通过进行大量的地面极端测试。
  • 回旋加速器测试 (Cyclotron Testing):在诺克斯维尔进行高能质子粒子加速测试,收集遥测数据以决定物理屏蔽方案。
  • 布鲁克海文国家实验室 (Brookhaven National Lab):测试重离子辐射。在24小时内让芯片经受太空中5年辐射剂量的考验,不仅指导硬件屏蔽,也指导抗辐射的软件开发选择。

挑战四:持续计算与大规模模型训练

09:31

  • 问题:你们可以进行持续计算或模型训练吗?
  • 现状与未来:目前的算力几乎只用于推理 (Inference)
  • 原因
  1. 推理很快将占据99%的计算市场,大型模型训练在未来5到10年内只占总工作量的很小比例。
  2. 训练极其困难,需要在太空中拼接出一个巨大的结构(如 5 吉瓦 的数据中心)。
  • 视觉参考 3:演讲者播放了一段 5 GW 训练级数据中心的概念动画。一个面积达 4公里 x 4公里 的方形巨型结构漂浮在太空。Starship每次发射带来 40兆瓦 (MW) 的模块并拼接到中央脊柱上,背面配有巨大的太阳能板和 1公里 x 4公里 的长条形散热器。演讲者表示这至少是15年后的事情。

时间表与现场调查

10:52

  • 现场互动:演讲者提问”你认为什么时候在太空中运行算力的成本会低于地球?”
  • 选项:未来5年内、5-10年内、10年后、永远不会。现场观众做出了不同的举手回应。

总结

视频高层级摘要:

在此次活动演讲中,StarCloud的CEO Philip Johnston论证了将全球数据中心基础设施转移到太空的必然趋势。他指出,由于太空具备全天候无间断的纯净太阳能(无需昂贵的土地和储能电池),加之SpaceX等公司带来的发射成本急剧下降,太空算力在经济上即将超越地面算力。通过攻克散热与辐射耐受性难题,StarCloud已经成功在轨验证了Nvidia H100 GPU的可用性。未来,他们计划发射88,000颗卫星,构建总计20 GW的太空推理计算星座,这标志着人类向着卡尔达肖夫2型(戴森球)文明迈出了重要的一步。

关键要点列表 (Top 10-15 洞察):

  1. GPU可以被修改或适应以在严酷的太空环境(高辐射、真空)中运行。
  2. StarCloud 1成功完成了首个在太空中的AI模型训练和推理任务,证明了在轨运行地面级GPU的可行性。
  3. 地球上太阳能的最大成本在于土地许可和用于夜间供电的电池储能。
  4. 太空不仅无需土地和储能电池,且同等面积太阳能板的发电效率是地球的8倍。
  5. 太空数据中心的盈亏平衡发射成本点约为 500/kg,而星舰(Starship)的目标是500/kg,而星舰(Starship)的目标是10-$20/kg。
  6. StarCloud的新计划是部署88,000颗卫星(20 GW算力),专门应对庞大的AI推理需求。
  7. 卫星将位于”晨昏太阳同步轨道”,实现24/7全天候日照供电。
  8. 卫星将通过光学链路实现网络互连,确保传输至地球的延迟低于50毫秒。
  9. 太空散热是巨大挑战,因为真空阻碍了对流传热,热量只能通过红外辐射排出。
  10. 根据斯特番-玻尔兹曼定律,小幅提升芯片运行温度可以大幅减小所需的散热器面积(质量)。
  11. 针对”凯斯勒现象”(太空垃圾链式碰撞),通过在低轨道运行卫星可以实现自然坠落脱轨,消除永久垃圾隐患。
  12. 为对抗辐射(比特翻转),芯片在地面加速器中进行长达等同于5年太空剂量的极端辐射测试。
  13. 太空计算目前专注”推理”而非”训练”,因为前者占据未来绝大多数市场,且容易实现分布式。
  14. 在太空中部署用于训练的大规模算力丛(如 5 GW数据中心)需要拼装长达数公里的太阳能板和散热器,预计还需要至少15年。
  15. 大规模的太空基础设施建设可以被视为通往”戴森球”或卡尔达肖夫2型文明的重要前置探索。

技术术语词汇表:

  • 比特翻转 (Bit flips):计算机内存或处理器中,因高能辐射粒子撞击导致数据位从 0 变成 1(或从 1 变成 0)的错误现象,会导致程序崩溃或数据损坏。
  • SAR数据 (Synthetic Aperture Radar):合成孔径雷达。一种利用雷达和卫星运动原理生成高分辨率地表图像的技术,可以在夜间或穿透云层观测。
  • 晨昏太阳同步轨道 (Dawn-dusk Sun-synchronous Orbit):一种特殊的极地轨道,卫星在穿过赤道时始终处于当地时间的清晨或黄昏,这意味着卫星的轨道面几乎与太阳光线垂直,使其能实现24小时不间断的阳光照射。
  • 卡尔达肖夫指数/文明 (Kardashev Scale/Civilization):一种根据文明所能利用的能源量级来衡量其技术发展水平的理论标度。Type 1(行星文明)、Type 2(恒星文明,能利用整个恒星的能量,如戴森球)、Type 3(星系文明)。
  • 戴森球 (Dyson Sphere):一种假想的巨型结构,由密集的太阳能收集器包围整个恒星,以捕获恒星发出的绝大部分或全部能量输出。
  • 斯特番-玻尔兹曼定律 (Stefan-Boltzmann Equation):热力学定律,指出黑体表面单位面积在单位时间内辐射出的总能量,与其绝对温度的四次方成正比。
  • 凯斯勒现象 (Kessler Syndrome):由NASA科学家唐纳德·凯斯勒提出的一种理论情景,即近地轨道上的物体密度过高,一次碰撞会产生大量碎片,进而引发连锁碰撞反应,使整个轨道变得不可用。
  • 范艾伦辐射带 (Van Allen Radiation Belt):环绕地球的带电粒子捕获区(主要由高能质子和电子组成),受地球磁场约束,对穿行的航天器电子设备具有极强破坏性。
  • 推理 (Inference):在人工智能领域中,指将已训练好的机器学习模型投入实际运行,对新数据进行预测或生成结果的过程(区别于”训练”过程)。
  • Capex (Capital Expenditure):资本性支出。指企业为获取或升级固定资产(如设备、建筑、卫星基础设施等)而产生的一次性大额花费。