【学习笔记】谷歌 I/O 2026 大会总结

19 min

全部值得关注的发布内容

时间:2026年5月20日 地点:美国加州山景城 Shoreline 圆形剧场


一、大会概览

北京时间2026年5月20日凌晨1点,谷歌在加州山景城Shoreline圆形剧场举办了I/O 2026开发者大会。CEO Sundar Pichai在开幕词中明确定调了今年的三大核心主题:模型(Models)、编程(Coding)和智能体(Agents)

整场发布会的核心叙事可以用一句话概括:“AI第一次大规模地从’对话框’走进了’日常事’。” 谷歌正在把AI智能体全面”塞进”所有核心入口——从搜索框到Chrome浏览器,从Android手机到智能眼镜。

关键数据

指标数据
每月处理Token数3.2千万亿(同比增长7倍)
每分钟处理Token数约190亿
全球开发者数量850万
AI Overviews月活跃用户25亿
Gemini应用月活跃用户9亿(一年内翻倍)
Gemini每日请求量增长七倍以上
AI Mode查询数增长自上线以来每季度翻倍
2026年年度资本支出约1800–1900亿美元(2022年的约6倍)

二、模型层:Gemini 3.5 Flash 与 Gemini Omni

1. Gemini 3.5 Flash —— 性价比王炸

Gemini 3.5 Flash 今日全量上线,同时成为 Gemini App 与 Google Search AI Mode 的默认模型。这是今年最重要的模型发布,因为它以一个”Flash级”小模型的身份,在几乎所有基准测试上打败了谷歌自家三个月前的旗舰 Gemini 3.1 Pro。

关键指标表现
输出速度289 tokens/秒,比 GPT-5.5、Claude Opus 4.7 快 4 倍以上
价格比同级前沿模型便宜超过一半
Terminal-Bench 2.1(编码)76.2%
GDPval-AA(Agent任务)1656 Elo
MCP Atlas(工具使用)83.6%
CharXiv Reasoning(多模态)84.2%

定价详情

项目价格
输入$1.50 / 百万 tokens
输出$9.00 / 百万 tokens
缓存输入$0.15 / 百万 tokens
非全球区域1.65/1.65 /9.90

谷歌表示,大客户若将80%的工作切换到 3.5 Flash,一年能省下超过10亿美元的API成本。Gemini 3.5 Pro 将于下个月发布

2. Gemini Omni —— 视频生成与编辑的跨越

Gemini Omni 是一个全新的原生多模态模型家族,首发成员为 Gemini Omni Flash,已于今日上线并接入 Gemini App、Google Flow 和 YouTube Shorts(YouTube Shorts 用户可直接免费使用)。

核心突破

  • 视频编辑能力:不仅能从零生成视频,更能用对话式语言编辑已有视频。用户可以上传一段自拍视频,通过文字指令替换背景、添加特效、插入新角色,而原视频中人物的表情、肢体语言和说话节奏纹丝不动。
  • 物理一致性:具备跨越式的物理概念理解能力,突破了此前AI在模拟动能和重力等物理属性上的局限,能够生成具有准确物理特性的视频。
  • 原生音视频同步生成:画面、配乐、音效在同一次推理中完成,不再需要三个模型接力。

重要限制

限制项说明
视频长度目前限制为 10秒,这是部署决策(为扩大首日访问范围)而非技术限制
语音编辑语音和语音编辑功能尚未上线,谷歌表示仍在单独测试该能力
资源消耗早期测试者反馈,生成两个10秒视频即耗尽 Google AI Pro 订阅用户日额度的86%

Omni Pro 将在不久后发布,将支持更长视频、更高生成质量和物理模拟精度。


三、算力底座:第八代 TPU

谷歌发布了第八代定制芯片,首次采用双芯片策略,针对训练和推理分别设计:

TPU 8t:针对大规模预训练优化,原始算力几乎是上一代的三倍。通过 JAX 和 Pathways,训练可跨越多个数据中心,在全球超过100万个TPU上扩展运行。

TPU 8i:专为推理设计,大幅提升每步速度。在生成 Chrome Dino 游戏的现场演示中,Flash 模型实现了接近1500 tokens/秒的演示峰值速度(注:这是特定演示场景下的峰值,非持续输出速度)。

两款芯片均具有更高能效,每瓦性能提升高达两倍。谷歌今年年度资本支出预计达到1800–1900亿美元,是2022年的近六倍。


四、编程层:Antigravity 2.0

Antigravity 2.0 是谷歌的全自动代码生成平台,由前 Codeium/Windsurf 创始人 Varun Mohan 主导。其定位是**“毫不掩饰地,Agent优先”**。

核心能力

  • 全新独立桌面应用,将 Agent 对话面板、Agent 产物面板、多 Agent 编排面板作为一等公民
  • 支持 CLI + SDK + 原生语音输入,可直接用语音与 Antigravity 谈需求
  • Android、Firebase、AI Studio 全栈原生集成
  • 底层引擎:Gemini 3.5 Flash × Antigravity Agent Harness,自带 sub-agents、hooks、async 三大原语

王炸演示:93个子Agent造操作系统

现场演示中,93个子智能体并行工作12小时,处理了26亿个Token,从零开始编写并测试了一个包含调度程序、内存管理和文件系统的完整操作系统,并成功跑通了 Doom 游戏。API总成本不到1000美元。

正如 Varun 所说:“以前要拉几天的工程任务,正在被压缩成几小时,甚至几分钟。“Antigravity 2.0 今日起全球开放


五、智能体层:Spark 与 Search Agents

1. Gemini Spark —— 24×7个人数字管家

Gemini Spark 是运行在 Google Cloud 专用虚拟机上的个人智能体,保持24/7全天候在线,即使终端设备关闭也能在后台自主工作。它可以跨越 Docs、Gmail、Calendar、Sheets、Slides 等多款应用执行复杂任务。

功能说明
定时任务支持”每周一 8 点整理上周会议纪要”等周期性任务
跨应用协作自动拉取 Gmail、Docs、Sheets 等内容生成工作汇报
第三方接入未来几周通过 MCP 协议打通第三方工具
Chrome集成下半年进入 Chrome,成为”智能浏览器”
Android Halo手机上专门为 Agent 准备的”基地”
邮件+IM接下来还将铺到邮件和即时通讯

上线节奏

  • 本周:对受信测试者灰度
  • 下周:向美国 Google AI Ultra 订阅用户开放 Beta

AI Ultra 订阅调整

档位价格说明
入门档$100/月新增,开通 Spark Beta 的最低门槛
标准档$200/月原 $250 档降价,包含 Project Genie 访问权限

安全提示

Spark 是实验性产品,可能在未询问的情况下分享信息或代你完成购买,请勿依赖它做医疗、法律、财务等专业决策。

2. Search Agents —— 搜索进入智能体时代

谷歌搜索负责人 Liz Reid 宣布”我们正在进入搜索智能体的时代”。主要更新包括:

全新AI搜索框:25年来最大的搜索框升级,原生支持文本/图像/文件/视频混合输入。

Information Agents(信息智能体):可在后台持续监控网络信息,如:

  • 监控生物科技板块”市盈率<15、正现金流、低负债”的股票,命中即推送
  • 租房需求持续筛选新房源
  • 心仪球鞋发售即时预警

今年夏天上线,首发 AI Pro 和 Ultra 订阅用户。

Generative UI:搜索结果页引入动态交互式UI,可实时生成可操作的数据可视化图表和”临时小应用”,如周末家庭计划器。结合 Gmail/Photos/Calendar 里的家庭画像,实时排出周末行程。今年夏天免费向所有人开放


六、商业基础设施:智能体电商协议

谷歌联合亚马逊、微软、Meta 等巨头推出了两大协议:

UCP(通用商业协议):为AI智能体提供通用的数据交互方式,涵盖产品搜索、结账到物流查询的全流程。Amazon、Meta、Microsoft、Salesforce、Stripe 等已加入支持。

“UCP 之于 agentic 商业,正如 HTTP 之于 Web——它让所有 Agent 和系统说同一种语言。”

AP2(智能体支付协议):用于设定AI购物的资金边界并确保权责明晰,在用户、商家和支付机构之间建立基于隐私保护技术的验证链接。

Universal Cart(通用智能购物车):实现跨商家、跨服务的统一购物车,可在后台自动比价、监控库存。支持 Nike、Target、Walmart、Ulta Beauty、Sephora、Wayfair、Shopify 等。谷歌 Shopping Graph 已收录 600亿条商品

上线时间:今夏在 Search 和 Gemini 上线,YouTube 和 Gmail 后续跟进。


七、智能硬件:Android XR 音频智能眼镜

谷歌联合三星、Gentle Monster 和 Warby Parker 推出了首款基于 Android XR 平台的音频智能眼镜,将于今年秋季上市。

  • 内置 Gemini,专注免提交互体验,完全通过语音指令执行任务
  • 支持实时地图导航、本地生活服务调用、商品订购与支付验证
  • 支持实时翻译、通知摘要等功能

Project Aura 智能眼镜也有更新:

  • 外部计算模块(puck)重新设计
  • 新增指纹传感器
  • 配备挂绳,可佩戴在身上
  • 支持 Google Calendar 和 Google Keep 的 Gemini 集成
  • 支持显示眼镜的小组件(widgets)

八、工作空间与协作工具革新

Ask Maps

地图十年来最大升级,支持复杂问题的对话式查询。例如:“我的孩子刚掉进了鸭子池塘,而婚礼30分钟后就要开始了。我可以在附近步行能到的地方买到一件新裙子吗?“

Ask YouTube

完全重塑视频搜索体验:

  • 可直接跳转到视频最相关片段
  • 支持追问,进行连续对话
  • 以表格形式呈现信息,方便对比
  • 今年夏天在美国正式推出

Docs Live

通过语音直接创建和编辑文档,Gemini 可自动拉取 Drive、Gmail 等内容生成草稿。支持直接编辑,全程只需使用语音。今夏向 Pro 和 Ultra 订阅用户推出

Gmail Live

在搜索栏中支持语音提问,可快速提取邮件中的关键信息(如酒店预订确认码)。类似功能也将应用于 Google Docs 和 Keep。

Pics(新应用)

Workspace 新成员,由 Nano Banana 2 和 Gemini 驱动:

  • 支持通过点击图像并添加评论的方式进行迭代AI编辑
  • 无需编写包含所有更新的完整提示词
  • 未来计划将能力整合到其他 Workspace 应用中

九、行业信任:SynthID 跨平台扩展

面对生成式AI内容失控的担忧,谷歌宣布将 SynthID 数字水印技术全面扩展至搜索和 Chrome 浏览器中。

  • 已累计为超过1000亿张图片和视频、长达6万年时长的音频添加水印
  • 新增跨产品 Content Credentials(内容凭证) 验证功能,展示内容来源(AI或相机)及是否使用生成式AI编辑
  • OpenAI、NVIDIA、Kakao、ElevenLabs 等已正式采用该标准

研究显示,人类只能正确识别约25%的高质量深伪视频,水印技术的普及对于AI内容透明度至关重要。


十、其他值得关注的发布

Vibe Coding Android 应用

用户可通过 AI Studio 用自然语言生成完整的原生 Android 应用:

  • 内置 Android 模拟器支持实时预览和编辑
  • 可插入手机直接安装测试
  • 可导出到 Android Studio 或 GitHub,或保存为 ZIP
  • 可直接发布到 Play Store
  • “即将”支持仅供亲友使用的私密发布
  • Firebase 集成支持即将推出

Gemini App 新设计(Neural Expressive)

采用全新的”神经表现”设计语言:

  • 新动画、色彩、字体
  • 触觉反馈
  • 5月19日起在网页端和 Android/iOS 应用推出

Gemini App 计费模式调整

计费模式改为按算力计费(代号 Neural Expressive)。

Personal Intelligence

Gemini 应用中的 Personal Intelligence 功能让AI响应更加定制化、更有帮助。目前已有超过500亿张图像由 Nano Banana 模型生成。

Project Genie

AI Ultra $200/月 订阅档包含 Project Genie 访问权限。这是一个世界模型项目,相关详情将在后续公布。

Google Beam 更新

实验性的生动AI智能体(如 Sophie):

  • 可在视频通话中回答问题
  • 可读取摄像头前的文档
  • 可查找餐厅推荐等
  • 支持基于 Meet 和 Zoom 的多人视频通话

十一、总结与展望

谷歌 I/O 2026 传递的核心信息非常明确:AI 正在从”工具”变为”生产力”,智能体正在接管一切。谷歌凭借全栈AI技术优势,在搜索、办公、购物和硬件全线筑起了”Agent优先”的超级生态壁垒。

三大栈块的核心进展

层级核心进展
模型层Gemini 3.5 Flash 以极低成本实现旗舰级性能;Omni 让 AI 第一次能”改”视频
编程层Antigravity 用不到1000美元造出了能跑 Doom 的操作系统
Agent层Spark 24×7替你跑后台,Search 边搜索边替你下单

谷歌的护城河

谷歌握着三个入口:

  1. Gemini App(Spark) —— 个人数字管家
  2. Google Search(Search Agents) —— 全球最大搜索入口
  3. Antigravity(开发者) —— 下一代编程平台

这是一道别家短期内难以复制的分发护城河。

待解的问题

当一个 24×7 的 Agent 拥有用户的邮箱、相册、日历、位置和支付权限时,安全边界谁来守、谁来负责,仍是所有大厂绕不开的课题。


附录:数据核实说明

本文档中的关键数据已通过多个来源交叉验证:

  • 289 tokens/秒:第三方 Artificial Analysis 测试数据(2026年5月13日)
  • 1500 tokens/秒:TPU 8i 演示峰值速度(Chrome Dino 游戏生成演示),非持续输出速度
  • Omni Flash 10秒限制:部署决策,Pro 版本将支持更长视频
  • Omni Flash 语音编辑:尚未上线,仍在测试中

参考链接