【学习笔记】谷歌 I/O 2026 大会总结

2026-05-20 19 min

全部值得关注的发布内容

时间：2026 年 5 月 20 日地点：美国加州山景城 Shoreline 圆形剧场

一、大会概览

北京时间 2026 年 5 月 20 日凌晨 1 点，谷歌在加州山景城 Shoreline 圆形剧场举办了 I/O 2026 开发者大会。CEO Sundar Pichai 在开幕词中明确定调了今年的三大核心主题：模型（Models）、编程（Coding）和智能体（Agents）。

整场发布会的核心叙事可以用一句话概括：“AI 第一次大规模地从’对话框’走进了’日常事’。” 谷歌正在把 AI 智能体全面”塞进”所有核心入口——从搜索框到 Chrome 浏览器，从 Android 手机到智能眼镜。

关键数据

指标	数据
每月处理 Token 数	3.2 千万亿（同比增长 7 倍）
每分钟处理 Token 数	约 190 亿
全球开发者数量	850 万
AI Overviews 月活跃用户	25 亿
Gemini 应用月活跃用户	9 亿（一年内翻倍）
Gemini 每日请求量增长	七倍以上
AI Mode 查询数增长	自上线以来每季度翻倍
2026 年年度资本支出	约 1800–1900 亿美元（2022 年的约 6 倍）

二、模型层：Gemini 3.5 Flash 与 Gemini Omni

1. Gemini 3.5 Flash —— 性价比王炸

Gemini 3.5 Flash 今日全量上线，同时成为 Gemini App 与 Google Search AI Mode 的默认模型。这是今年最重要的模型发布，因为它以一个”Flash 级”小模型的身份，在几乎所有基准测试上打败了谷歌自家三个月前的旗舰 Gemini 3.1 Pro。

关键指标	表现
输出速度	289 tokens/秒，比 GPT-5.5、Claude Opus 4.7 快 4 倍以上
价格	比同级前沿模型便宜超过一半
Terminal-Bench 2.1（编码）	76.2%
GDPval-AA（Agent 任务）	1656 Elo
MCP Atlas（工具使用）	83.6%
CharXiv Reasoning（多模态）	84.2%

定价详情

项目	价格
输入	$1.50 / 百万 tokens
输出	$9.00 / 百万 tokens
缓存输入	$0.15 / 百万 tokens
非全球区域	$1.65 /$ 9.90

谷歌表示，大客户若将 80% 的工作切换到 3.5 Flash，一年能省下超过 10 亿美元的 API 成本。Gemini 3.5 Pro 将于下个月发布。

2. Gemini Omni —— 视频生成与编辑的跨越

Gemini Omni 是一个全新的原生多模态模型家族，首发成员为 Gemini Omni Flash，已于今日上线并接入 Gemini App、Google Flow 和 YouTube Shorts（YouTube Shorts 用户可直接免费使用）。

核心突破

视频编辑能力：不仅能从零生成视频，更能用对话式语言编辑已有视频。用户可以上传一段自拍视频，通过文字指令替换背景、添加特效、插入新角色，而原视频中人物的表情、肢体语言和说话节奏纹丝不动。
物理一致性：具备跨越式的物理概念理解能力，突破了此前 AI 在模拟动能和重力等物理属性上的局限，能够生成具有准确物理特性的视频。
原生音视频同步生成：画面、配乐、音效在同一次推理中完成，不再需要三个模型接力。

重要限制

限制项	说明
视频长度	目前限制为 10 秒，这是部署决策（为扩大首日访问范围）而非技术限制
语音编辑	语音和语音编辑功能尚未上线，谷歌表示仍在单独测试该能力
资源消耗	早期测试者反馈，生成两个 10 秒视频即耗尽 Google AI Pro 订阅用户日额度的 86%

Omni Pro 将在不久后发布，将支持更长视频、更高生成质量和物理模拟精度。

三、算力底座：第八代 TPU

谷歌发布了第八代定制芯片，首次采用双芯片策略，针对训练和推理分别设计：

TPU 8t：针对大规模预训练优化，原始算力几乎是上一代的三倍。通过 JAX 和 Pathways，训练可跨越多个数据中心，在全球超过 100 万个 TPU 上扩展运行。

TPU 8i：专为推理设计，大幅提升每步速度。在生成 Chrome Dino 游戏的现场演示中，Flash 模型实现了接近 1500 tokens/秒的演示峰值速度（注：这是特定演示场景下的峰值，非持续输出速度）。

两款芯片均具有更高能效，每瓦性能提升高达两倍。谷歌今年年度资本支出预计达到 1800–1900 亿美元，是 2022 年的近六倍。

四、编程层：Antigravity 2.0

Antigravity 2.0 是谷歌的全自动代码生成平台，由前 Codeium/Windsurf 创始人 Varun Mohan 主导。其定位是**“毫不掩饰地，Agent 优先”**。

核心能力

全新独立桌面应用，将 Agent 对话面板、Agent 产物面板、多 Agent 编排面板作为一等公民
支持 CLI + SDK + 原生语音输入，可直接用语音与 Antigravity 谈需求
Android、Firebase、AI Studio 全栈原生集成
底层引擎：Gemini 3.5 Flash × Antigravity Agent Harness，自带 sub-agents、hooks、async 三大原语

王炸演示：93 个子 Agent 造操作系统

现场演示中，93 个子智能体并行工作 12 小时，处理了 26 亿个 Token，从零开始编写并测试了一个包含调度程序、内存管理和文件系统的完整操作系统，并成功跑通了 Doom 游戏。API 总成本不到 1000 美元。

正如 Varun 所说：“以前要拉几天的工程任务，正在被压缩成几小时，甚至几分钟。“Antigravity 2.0 今日起全球开放。

五、智能体层：Spark 与 Search Agents

1. Gemini Spark —— 24×7 个人数字管家

Gemini Spark 是运行在 Google Cloud 专用虚拟机上的个人智能体，保持 24/7 全天候在线，即使终端设备关闭也能在后台自主工作。它可以跨越 Docs、Gmail、Calendar、Sheets、Slides 等多款应用执行复杂任务。

功能	说明
定时任务	支持”每周一 8 点整理上周会议纪要”等周期性任务
跨应用协作	自动拉取 Gmail、Docs、Sheets 等内容生成工作汇报
第三方接入	未来几周通过 MCP 协议打通第三方工具
Chrome 集成	下半年进入 Chrome，成为”智能浏览器”
Android Halo	手机上专门为 Agent 准备的”基地”
邮件+IM	接下来还将铺到邮件和即时通讯

上线节奏

本周：对受信测试者灰度
下周：向美国 Google AI Ultra 订阅用户开放 Beta

AI Ultra 订阅调整

档位	价格	说明
入门档	$100/月	新增，开通 Spark Beta 的最低门槛
标准档	$200/月	原 $250 档降价，包含 Project Genie 访问权限

安全提示

Spark 是实验性产品，可能在未询问的情况下分享信息或代你完成购买，请勿依赖它做医疗、法律、财务等专业决策。

2. Search Agents —— 搜索进入智能体时代

谷歌搜索负责人 Liz Reid 宣布”我们正在进入搜索智能体的时代”。主要更新包括：

全新 AI 搜索框：25 年来最大的搜索框升级，原生支持文本/图像/文件/视频混合输入。

Information Agents（信息智能体）：可在后台持续监控网络信息，如：

监控生物科技板块”市盈率<15、正现金流、低负债”的股票，命中即推送
租房需求持续筛选新房源
心仪球鞋发售即时预警

今年夏天上线，首发 AI Pro 和 Ultra 订阅用户。

Generative UI：搜索结果页引入动态交互式 UI，可实时生成可操作的数据可视化图表和”临时小应用”，如周末家庭计划器。结合 Gmail/Photos/Calendar 里的家庭画像，实时排出周末行程。今年夏天免费向所有人开放。

六、商业基础设施：智能体电商协议

谷歌联合亚马逊、微软、Meta 等巨头推出了两大协议：

UCP（通用商业协议）：为 AI 智能体提供通用的数据交互方式，涵盖产品搜索、结账到物流查询的全流程。Amazon、Meta、Microsoft、Salesforce、Stripe 等已加入支持。

“UCP 之于 agentic 商业，正如 HTTP 之于 Web——它让所有 Agent 和系统说同一种语言。”

AP2（智能体支付协议）：用于设定 AI 购物的资金边界并确保权责明晰，在用户、商家和支付机构之间建立基于隐私保护技术的验证链接。

Universal Cart（通用智能购物车）：实现跨商家、跨服务的统一购物车，可在后台自动比价、监控库存。支持 Nike、Target、Walmart、Ulta Beauty、Sephora、Wayfair、Shopify 等。谷歌 Shopping Graph 已收录 600 亿条商品。

上线时间：今夏在 Search 和 Gemini 上线，YouTube 和 Gmail 后续跟进。

七、智能硬件：Android XR 音频智能眼镜

谷歌联合三星、Gentle Monster 和 Warby Parker 推出了首款基于 Android XR 平台的音频智能眼镜，将于今年秋季上市。

内置 Gemini，专注免提交互体验，完全通过语音指令执行任务
支持实时地图导航、本地生活服务调用、商品订购与支付验证
支持实时翻译、通知摘要等功能

Project Aura 智能眼镜也有更新：

外部计算模块（puck）重新设计
新增指纹传感器
配备挂绳，可佩戴在身上
支持 Google Calendar 和 Google Keep 的 Gemini 集成
支持显示眼镜的小组件（widgets）

八、工作空间与协作工具革新

Ask Maps

地图十年来最大升级，支持复杂问题的对话式查询。例如：“我的孩子刚掉进了鸭子池塘，而婚礼 30 分钟后就要开始了。我可以在附近步行能到的地方买到一件新裙子吗？“

Ask YouTube

完全重塑视频搜索体验：

可直接跳转到视频最相关片段
支持追问，进行连续对话
以表格形式呈现信息，方便对比
今年夏天在美国正式推出

Docs Live

通过语音直接创建和编辑文档，Gemini 可自动拉取 Drive、Gmail 等内容生成草稿。支持直接编辑，全程只需使用语音。今夏向 Pro 和 Ultra 订阅用户推出。

Gmail Live

在搜索栏中支持语音提问，可快速提取邮件中的关键信息（如酒店预订确认码）。类似功能也将应用于 Google Docs 和 Keep。

Pics（新应用）

Workspace 新成员，由 Nano Banana 2 和 Gemini 驱动：

支持通过点击图像并添加评论的方式进行迭代 AI 编辑
无需编写包含所有更新的完整提示词
未来计划将能力整合到其他 Workspace 应用中

九、行业信任：SynthID 跨平台扩展

面对生成式 AI 内容失控的担忧，谷歌宣布将 SynthID 数字水印技术全面扩展至搜索和 Chrome 浏览器中。

已累计为超过1000 亿张图片和视频、长达6 万年时长的音频添加水印
新增跨产品 Content Credentials（内容凭证） 验证功能，展示内容来源（AI 或相机）及是否使用生成式 AI 编辑
OpenAI、NVIDIA、Kakao、ElevenLabs 等已正式采用该标准

研究显示，人类只能正确识别约 25% 的高质量深伪视频，水印技术的普及对于 AI 内容透明度至关重要。

十、其他值得关注的发布

Vibe Coding Android 应用

用户可通过 AI Studio 用自然语言生成完整的原生 Android 应用：

内置 Android 模拟器支持实时预览和编辑
可插入手机直接安装测试
可导出到 Android Studio 或 GitHub，或保存为 ZIP
可直接发布到 Play Store
“即将”支持仅供亲友使用的私密发布
Firebase 集成支持即将推出

Gemini App 新设计（Neural Expressive）

采用全新的”神经表现”设计语言：

新动画、色彩、字体
触觉反馈
5 月 19 日起在网页端和 Android/iOS 应用推出

Gemini App 计费模式调整

计费模式改为按算力计费（代号 Neural Expressive）。

Personal Intelligence

Gemini 应用中的 Personal Intelligence 功能让 AI 响应更加定制化、更有帮助。目前已有超过500 亿张图像由 Nano Banana 模型生成。

Project Genie

AI Ultra $200/月订阅档包含 Project Genie 访问权限。这是一个世界模型项目，相关详情将在后续公布。

Google Beam 更新

实验性的生动 AI 智能体（如 Sophie）：

可在视频通话中回答问题
可读取摄像头前的文档
可查找餐厅推荐等
支持基于 Meet 和 Zoom 的多人视频通话

十一、总结与展望

谷歌 I/O 2026 传递的核心信息非常明确：AI 正在从”工具”变为”生产力”，智能体正在接管一切。谷歌凭借全栈 AI 技术优势，在搜索、办公、购物和硬件全线筑起了”Agent 优先”的超级生态壁垒。

三大栈块的核心进展

层级	核心进展
模型层	Gemini 3.5 Flash 以极低成本实现旗舰级性能；Omni 让 AI 第一次能”改”视频
编程层	Antigravity 用不到 1000 美元造出了能跑 Doom 的操作系统
Agent 层	Spark 24×7 替你跑后台，Search 边搜索边替你下单

谷歌的护城河

谷歌握着三个入口：

Gemini App（Spark） —— 个人数字管家
Google Search（Search Agents） —— 全球最大搜索入口
Antigravity（开发者） —— 下一代编程平台

这是一道别家短期内难以复制的分发护城河。

待解的问题

当一个 24×7 的 Agent 拥有用户的邮箱、相册、日历、位置和支付权限时，安全边界谁来守、谁来负责，仍是所有大厂绕不开的课题。

附录：数据核实说明

本文档中的关键数据已通过多个来源交叉验证：

289 tokens/秒：第三方 Artificial Analysis 测试数据（2026 年 5 月 13 日）
1500 tokens/秒：TPU 8i 演示峰值速度（Chrome Dino 游戏生成演示），非持续输出速度
Omni Flash 10 秒限制：部署决策，Pro 版本将支持更长视频
Omni Flash 语音编辑：尚未上线，仍在测试中

参考链接

学习笔记