【学习笔记】谷歌 I/O 2026 大会总结
全部值得关注的发布内容
时间:2026年5月20日 地点:美国加州山景城 Shoreline 圆形剧场
一、大会概览
北京时间2026年5月20日凌晨1点,谷歌在加州山景城Shoreline圆形剧场举办了I/O 2026开发者大会。CEO Sundar Pichai在开幕词中明确定调了今年的三大核心主题:模型(Models)、编程(Coding)和智能体(Agents)。
整场发布会的核心叙事可以用一句话概括:“AI第一次大规模地从’对话框’走进了’日常事’。” 谷歌正在把AI智能体全面”塞进”所有核心入口——从搜索框到Chrome浏览器,从Android手机到智能眼镜。
关键数据
| 指标 | 数据 |
|---|---|
| 每月处理Token数 | 3.2千万亿(同比增长7倍) |
| 每分钟处理Token数 | 约190亿 |
| 全球开发者数量 | 850万 |
| AI Overviews月活跃用户 | 25亿 |
| Gemini应用月活跃用户 | 9亿(一年内翻倍) |
| Gemini每日请求量增长 | 七倍以上 |
| AI Mode查询数增长 | 自上线以来每季度翻倍 |
| 2026年年度资本支出 | 约1800–1900亿美元(2022年的约6倍) |
二、模型层:Gemini 3.5 Flash 与 Gemini Omni
1. Gemini 3.5 Flash —— 性价比王炸
Gemini 3.5 Flash 今日全量上线,同时成为 Gemini App 与 Google Search AI Mode 的默认模型。这是今年最重要的模型发布,因为它以一个”Flash级”小模型的身份,在几乎所有基准测试上打败了谷歌自家三个月前的旗舰 Gemini 3.1 Pro。
| 关键指标 | 表现 |
|---|---|
| 输出速度 | 289 tokens/秒,比 GPT-5.5、Claude Opus 4.7 快 4 倍以上 |
| 价格 | 比同级前沿模型便宜超过一半 |
| Terminal-Bench 2.1(编码) | 76.2% |
| GDPval-AA(Agent任务) | 1656 Elo |
| MCP Atlas(工具使用) | 83.6% |
| CharXiv Reasoning(多模态) | 84.2% |
定价详情
| 项目 | 价格 |
|---|---|
| 输入 | $1.50 / 百万 tokens |
| 输出 | $9.00 / 百万 tokens |
| 缓存输入 | $0.15 / 百万 tokens |
| 非全球区域 | 9.90 |
谷歌表示,大客户若将80%的工作切换到 3.5 Flash,一年能省下超过10亿美元的API成本。Gemini 3.5 Pro 将于下个月发布。
2. Gemini Omni —— 视频生成与编辑的跨越
Gemini Omni 是一个全新的原生多模态模型家族,首发成员为 Gemini Omni Flash,已于今日上线并接入 Gemini App、Google Flow 和 YouTube Shorts(YouTube Shorts 用户可直接免费使用)。
核心突破
- 视频编辑能力:不仅能从零生成视频,更能用对话式语言编辑已有视频。用户可以上传一段自拍视频,通过文字指令替换背景、添加特效、插入新角色,而原视频中人物的表情、肢体语言和说话节奏纹丝不动。
- 物理一致性:具备跨越式的物理概念理解能力,突破了此前AI在模拟动能和重力等物理属性上的局限,能够生成具有准确物理特性的视频。
- 原生音视频同步生成:画面、配乐、音效在同一次推理中完成,不再需要三个模型接力。
重要限制
| 限制项 | 说明 |
|---|---|
| 视频长度 | 目前限制为 10秒,这是部署决策(为扩大首日访问范围)而非技术限制 |
| 语音编辑 | 语音和语音编辑功能尚未上线,谷歌表示仍在单独测试该能力 |
| 资源消耗 | 早期测试者反馈,生成两个10秒视频即耗尽 Google AI Pro 订阅用户日额度的86% |
Omni Pro 将在不久后发布,将支持更长视频、更高生成质量和物理模拟精度。
三、算力底座:第八代 TPU
谷歌发布了第八代定制芯片,首次采用双芯片策略,针对训练和推理分别设计:
TPU 8t:针对大规模预训练优化,原始算力几乎是上一代的三倍。通过 JAX 和 Pathways,训练可跨越多个数据中心,在全球超过100万个TPU上扩展运行。
TPU 8i:专为推理设计,大幅提升每步速度。在生成 Chrome Dino 游戏的现场演示中,Flash 模型实现了接近1500 tokens/秒的演示峰值速度(注:这是特定演示场景下的峰值,非持续输出速度)。
两款芯片均具有更高能效,每瓦性能提升高达两倍。谷歌今年年度资本支出预计达到1800–1900亿美元,是2022年的近六倍。
四、编程层:Antigravity 2.0
Antigravity 2.0 是谷歌的全自动代码生成平台,由前 Codeium/Windsurf 创始人 Varun Mohan 主导。其定位是**“毫不掩饰地,Agent优先”**。
核心能力
- 全新独立桌面应用,将 Agent 对话面板、Agent 产物面板、多 Agent 编排面板作为一等公民
- 支持 CLI + SDK + 原生语音输入,可直接用语音与 Antigravity 谈需求
- Android、Firebase、AI Studio 全栈原生集成
- 底层引擎:Gemini 3.5 Flash × Antigravity Agent Harness,自带 sub-agents、hooks、async 三大原语
王炸演示:93个子Agent造操作系统
现场演示中,93个子智能体并行工作12小时,处理了26亿个Token,从零开始编写并测试了一个包含调度程序、内存管理和文件系统的完整操作系统,并成功跑通了 Doom 游戏。API总成本不到1000美元。
正如 Varun 所说:“以前要拉几天的工程任务,正在被压缩成几小时,甚至几分钟。“Antigravity 2.0 今日起全球开放。
五、智能体层:Spark 与 Search Agents
1. Gemini Spark —— 24×7个人数字管家
Gemini Spark 是运行在 Google Cloud 专用虚拟机上的个人智能体,保持24/7全天候在线,即使终端设备关闭也能在后台自主工作。它可以跨越 Docs、Gmail、Calendar、Sheets、Slides 等多款应用执行复杂任务。
| 功能 | 说明 |
|---|---|
| 定时任务 | 支持”每周一 8 点整理上周会议纪要”等周期性任务 |
| 跨应用协作 | 自动拉取 Gmail、Docs、Sheets 等内容生成工作汇报 |
| 第三方接入 | 未来几周通过 MCP 协议打通第三方工具 |
| Chrome集成 | 下半年进入 Chrome,成为”智能浏览器” |
| Android Halo | 手机上专门为 Agent 准备的”基地” |
| 邮件+IM | 接下来还将铺到邮件和即时通讯 |
上线节奏
- 本周:对受信测试者灰度
- 下周:向美国 Google AI Ultra 订阅用户开放 Beta
AI Ultra 订阅调整
| 档位 | 价格 | 说明 |
|---|---|---|
| 入门档 | $100/月 | 新增,开通 Spark Beta 的最低门槛 |
| 标准档 | $200/月 | 原 $250 档降价,包含 Project Genie 访问权限 |
安全提示
Spark 是实验性产品,可能在未询问的情况下分享信息或代你完成购买,请勿依赖它做医疗、法律、财务等专业决策。
2. Search Agents —— 搜索进入智能体时代
谷歌搜索负责人 Liz Reid 宣布”我们正在进入搜索智能体的时代”。主要更新包括:
全新AI搜索框:25年来最大的搜索框升级,原生支持文本/图像/文件/视频混合输入。
Information Agents(信息智能体):可在后台持续监控网络信息,如:
- 监控生物科技板块”市盈率<15、正现金流、低负债”的股票,命中即推送
- 租房需求持续筛选新房源
- 心仪球鞋发售即时预警
今年夏天上线,首发 AI Pro 和 Ultra 订阅用户。
Generative UI:搜索结果页引入动态交互式UI,可实时生成可操作的数据可视化图表和”临时小应用”,如周末家庭计划器。结合 Gmail/Photos/Calendar 里的家庭画像,实时排出周末行程。今年夏天免费向所有人开放。
六、商业基础设施:智能体电商协议
谷歌联合亚马逊、微软、Meta 等巨头推出了两大协议:
UCP(通用商业协议):为AI智能体提供通用的数据交互方式,涵盖产品搜索、结账到物流查询的全流程。Amazon、Meta、Microsoft、Salesforce、Stripe 等已加入支持。
“UCP 之于 agentic 商业,正如 HTTP 之于 Web——它让所有 Agent 和系统说同一种语言。”
AP2(智能体支付协议):用于设定AI购物的资金边界并确保权责明晰,在用户、商家和支付机构之间建立基于隐私保护技术的验证链接。
Universal Cart(通用智能购物车):实现跨商家、跨服务的统一购物车,可在后台自动比价、监控库存。支持 Nike、Target、Walmart、Ulta Beauty、Sephora、Wayfair、Shopify 等。谷歌 Shopping Graph 已收录 600亿条商品。
上线时间:今夏在 Search 和 Gemini 上线,YouTube 和 Gmail 后续跟进。
七、智能硬件:Android XR 音频智能眼镜
谷歌联合三星、Gentle Monster 和 Warby Parker 推出了首款基于 Android XR 平台的音频智能眼镜,将于今年秋季上市。
- 内置 Gemini,专注免提交互体验,完全通过语音指令执行任务
- 支持实时地图导航、本地生活服务调用、商品订购与支付验证
- 支持实时翻译、通知摘要等功能
Project Aura 智能眼镜也有更新:
- 外部计算模块(puck)重新设计
- 新增指纹传感器
- 配备挂绳,可佩戴在身上
- 支持 Google Calendar 和 Google Keep 的 Gemini 集成
- 支持显示眼镜的小组件(widgets)
八、工作空间与协作工具革新
Ask Maps
地图十年来最大升级,支持复杂问题的对话式查询。例如:“我的孩子刚掉进了鸭子池塘,而婚礼30分钟后就要开始了。我可以在附近步行能到的地方买到一件新裙子吗?“
Ask YouTube
完全重塑视频搜索体验:
- 可直接跳转到视频最相关片段
- 支持追问,进行连续对话
- 以表格形式呈现信息,方便对比
- 今年夏天在美国正式推出
Docs Live
通过语音直接创建和编辑文档,Gemini 可自动拉取 Drive、Gmail 等内容生成草稿。支持直接编辑,全程只需使用语音。今夏向 Pro 和 Ultra 订阅用户推出。
Gmail Live
在搜索栏中支持语音提问,可快速提取邮件中的关键信息(如酒店预订确认码)。类似功能也将应用于 Google Docs 和 Keep。
Pics(新应用)
Workspace 新成员,由 Nano Banana 2 和 Gemini 驱动:
- 支持通过点击图像并添加评论的方式进行迭代AI编辑
- 无需编写包含所有更新的完整提示词
- 未来计划将能力整合到其他 Workspace 应用中
九、行业信任:SynthID 跨平台扩展
面对生成式AI内容失控的担忧,谷歌宣布将 SynthID 数字水印技术全面扩展至搜索和 Chrome 浏览器中。
- 已累计为超过1000亿张图片和视频、长达6万年时长的音频添加水印
- 新增跨产品 Content Credentials(内容凭证) 验证功能,展示内容来源(AI或相机)及是否使用生成式AI编辑
- OpenAI、NVIDIA、Kakao、ElevenLabs 等已正式采用该标准
研究显示,人类只能正确识别约25%的高质量深伪视频,水印技术的普及对于AI内容透明度至关重要。
十、其他值得关注的发布
Vibe Coding Android 应用
用户可通过 AI Studio 用自然语言生成完整的原生 Android 应用:
- 内置 Android 模拟器支持实时预览和编辑
- 可插入手机直接安装测试
- 可导出到 Android Studio 或 GitHub,或保存为 ZIP
- 可直接发布到 Play Store
- “即将”支持仅供亲友使用的私密发布
- Firebase 集成支持即将推出
Gemini App 新设计(Neural Expressive)
采用全新的”神经表现”设计语言:
- 新动画、色彩、字体
- 触觉反馈
- 5月19日起在网页端和 Android/iOS 应用推出
Gemini App 计费模式调整
计费模式改为按算力计费(代号 Neural Expressive)。
Personal Intelligence
Gemini 应用中的 Personal Intelligence 功能让AI响应更加定制化、更有帮助。目前已有超过500亿张图像由 Nano Banana 模型生成。
Project Genie
AI Ultra $200/月 订阅档包含 Project Genie 访问权限。这是一个世界模型项目,相关详情将在后续公布。
Google Beam 更新
实验性的生动AI智能体(如 Sophie):
- 可在视频通话中回答问题
- 可读取摄像头前的文档
- 可查找餐厅推荐等
- 支持基于 Meet 和 Zoom 的多人视频通话
十一、总结与展望
谷歌 I/O 2026 传递的核心信息非常明确:AI 正在从”工具”变为”生产力”,智能体正在接管一切。谷歌凭借全栈AI技术优势,在搜索、办公、购物和硬件全线筑起了”Agent优先”的超级生态壁垒。
三大栈块的核心进展
| 层级 | 核心进展 |
|---|---|
| 模型层 | Gemini 3.5 Flash 以极低成本实现旗舰级性能;Omni 让 AI 第一次能”改”视频 |
| 编程层 | Antigravity 用不到1000美元造出了能跑 Doom 的操作系统 |
| Agent层 | Spark 24×7替你跑后台,Search 边搜索边替你下单 |
谷歌的护城河
谷歌握着三个入口:
- Gemini App(Spark) —— 个人数字管家
- Google Search(Search Agents) —— 全球最大搜索入口
- Antigravity(开发者) —— 下一代编程平台
这是一道别家短期内难以复制的分发护城河。
待解的问题
当一个 24×7 的 Agent 拥有用户的邮箱、相册、日历、位置和支付权限时,安全边界谁来守、谁来负责,仍是所有大厂绕不开的课题。
附录:数据核实说明
本文档中的关键数据已通过多个来源交叉验证:
- 289 tokens/秒:第三方 Artificial Analysis 测试数据(2026年5月13日)
- 1500 tokens/秒:TPU 8i 演示峰值速度(Chrome Dino 游戏生成演示),非持续输出速度
- Omni Flash 10秒限制:部署决策,Pro 版本将支持更长视频
- Omni Flash 语音编辑:尚未上线,仍在测试中
参考链接
- I/O 2026: Welcome to the agentic Gemini era - Google Blog
- The 13 biggest announcements at Google I/O 2026 - The Verge
- 三个关键词,2026谷歌 I/O大会全说透了 - 腾讯技术工程
- 谷歌2026 I/O大会完整回顾:模型依然重要,但智能体正在接管一切 - 凤凰网
- The 13 biggest announcements at Google I/O 2026 - Associated Press
- Google I/O 2026: Every Major Announcement From Gemini 3.5 to Smartglasses - InsiderXP
- 一文看懂2026年谷歌I/O大会 - 每日经济新闻
- Gemini 3.5 Flash Is Here, Google’s Strongest Agentic & Coding Model Yet - Times of AI
- Gemini 3.5 Flash launches: Flash beats Gemini 3.1 Pro - APIYi Docs
- Gemini 3.5 Flash: Benchmarks, Pricing, and Complete Specs - LLM Stats
- Google I/O 2026: Google introduces Gemini Omni AI video model - Moneycontrol
- Google announces slew of AI advances, including a personal AI assistant - AP News
- Google’s Gemini Omni Flash turns any input into video — with a 10-second leash - GaGadget
- 谷歌推Gemini Omni Flash:对话式AI视频编辑来了 - 什么值得买
- Google I/O 2026 Recap: Google shows how AI is becoming the core layer - Meristation
- Gemini app rolling out ‘Neural Expressive’ redesign, 3.5 Flash, 24/7 Spark agent - 9to5Google
- Google I/O 2026: Google Enters Its ‘Agentic Gemini Era’ - Economic Times