Gemini 3.5 – 青瓜传媒 //www.f-o-p.com 全球数字营销运营推广学习平台! Mon, 25 May 2026 07:43:23 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico Gemini 3.5 – 青瓜传媒 //www.f-o-p.com 32 32 Gemini 3.5:谷歌的 Agentic 时代宣言,我们该怎么接? //www.f-o-p.com/381775.html Mon, 25 May 2026 07:43:23 +0000 //www.f-o-p.com/?p=381775

 

Google I/O 2026开完有一阵了,热度还没散。整场发布会其实就讲了一件事——Agentic Era真的来了。谷歌这次拿出来的东西挺实在的:Gemini 3.5 Flash做量产底座,3.5Pro冲性能上限,中间用Antigravity2.0做编排,再加一个全天候私人智能体Gemini Spark和一个全模态模型Gemini Omni Flash。从底层模型到开发工具到上层应用,一条线全打通了。

过去的大模型,本质是“对话工具”,一问一答、单次交互、被动响应。而谷歌这一代 Agentic AI,是能够自主规划、多步执行、长期后台驻留、闭环完成完整任务,结束后再向用户同步结果的智能工作主体。我们这些做AI的人,不能再盯着发布会Demo看热闹了——得想清楚这波更新到底变了什么,哪些能落地,机会在

哪儿。

一、Flash 越级碾压旗舰:模型选型逻辑彻底重构

在此之前,行业模型选型的规则非常固定、刻板:Flash 系列主打高速、低成本,适配简单粗放的基础任务;Pro 系列定位旗舰,凭借更强的推理能力承接复杂精细工作。Gemini 3.5 Flash把这个规则打破了。

但 Gemini 3.5 Flash 直接打破了这套固有规则,实现了轻量化模型对上代旗舰的全面反超,且所有核心数据均为谷歌官方实测、可溯源:看数据:编码测试Terminal-Bench 2.1拿了76.2%,上一代旗舰3.1Pro才70.3%。工具调用能力MCP Atlas 83.6%,GDPval-AA Elo1656,Agent相关的几个核心指标全部压过3.1 Pro。速度上更夸张,原生输出289 token/s,配合Antigravity2.0深度优化后,速度还能进一步提升。说实话,当Flash在Agent核心能力上全面超越上一代Pro的时候,”旗舰”这个词的含义已经变了。Flash 的性能越级,意味着量产级、低成本的自动化 Agent 终于具备了可用的实战能力

往后做技术选型,再也不能简单以 Flash、Pro 区分高低,唯一的标准只有场景适配度

二、Omni Flash:炫酷是C端红利,静默治理才是B端价值

Gemini Omni Flash是这次最抓眼球的产品——谷歌第一个真正的”任意输入、任意输出”全模态模型。文字、图片、音频、视频都能塞进去,能理解物理规则然后生成高质量视频,且具备行业稀缺的多轮对话式编辑能力。

它跟传统文生视频那种”一次过、不能改”的路子不一样,Omni Flash可以基于已有视频一直调:换个色调、改个背景、挪一下机位,人物和场景结构不会崩。它内置的世界模型能模拟重力、流体、物体碰撞这些东西,做一些蛋白质折叠的科普动画或者物理力学演示挺准的。

C端用确实爽,YouTube Shorts还免费,大幅降低了普通用户短视频、科普内容的创作门槛。但B端得冷静点看:实时流式多模态交互,带宽和算力成本是个大坑。之前行业里有人试过工业产线实时视频质检,跑下来发现利润全被算力成本吃掉了——技术上能跑通,账算不过来。属于典型的“技术可行、商业不可行”。

Omni Flash对企业真正的价值不在前端交互,在后台的数据处理。它的多模态对齐能力可以把工业拍的照片、方言讲的故障描述、手写的单据、模糊的客户素材这些乱七八糟的非结构化数据,在一个向量空间里完成解析、融合、清洗,跳过OCR和语音转写那些中间步骤,直接出标准化数据。

企业要的就是这个:不用花哨界面,把多模态理解能力放在后台,批量做数据清洗、分类、异常标记、归档,人工只复核疑似有问题的。降人力、提效率、成本可控、效果可量化,这才是企业愿意长期付费的真实价值,这才是B端多模态最实在的落地姿势。

三、三个基础设施,把Agent从Demo推到量产

模型再好,没有工程配套就只能停在Demo。谷歌这次真正有诚意的地方不是模型升级,是补上了Agent量产的工程链路——Antigravity2.0、Managed Agents、Gemini Spark。

Antigravity 2.0已经不是去年那个IDE插件了,现在是一整套Agent-first的开发体系,桌面端、CLI、SDK都有。关键是支持多智能体并行:一个复杂任务拆成调研、编码、测试、复盘几个子Agent同时跑,避免单个Agent上下文被撑爆。谷歌现场演示了用3.5 Flash加多子Agent协同,很短时间搭完一个系统加测试,成本很低就跑通了。

Managed Agents是开发者最需要的东西:不用自己搭环境、管状态、配沙箱,一次API调用就在隔离Linux环境里启动一个完整Agent,状态可以持久化、跨会话记忆还在。像”市场调研—写代码—测试—部署”这种超长流程终于能跑通了,不用每次重开都从头来。

Gemini Spark是第一个真正量产的7×24私人智能体,跑在谷歌云虚拟机上,不依赖你的电脑或手机,全天候后台待着。能跨Gmail、日历、文档、表单自动做数据统计、发邮件跟进、提醒任务。你可以设自己的工作风格、用语音一口气拆解多个任务,关键节点它自动停住等你确认。谷歌还顺带推出了一个Ultra订阅套餐,定价比之前合理了一些。

这套基础设施把Agent开发里最烦的那些事——任务调度、环境隔离、状态持久化、多智能体协同——全部封装好了。你不用再花时间搞底层优化,把精力放在业务逻辑和场景上就行。

四、做AI的人得想清楚三件事

技术变得太快了,比追热点更重要的,是搞清楚自己业务的适配点。我觉得有三个问题值得好好琢磨。

你的业务场景,模型怎么选?

别一刀切。高频、多轮、重执行、不需要深度推理的场景——数据整理、流程审批、批量处理、内容生成——直接用3.5

Flash,便宜快。低频、高难度、强逻辑、需要精确溯源的事——科研推演、复杂代码架构、深度数据分析——等3.5Pro。模型本身没有好坏,看适不适合。

多模态落地,别搞形式主义。

C端产品用实时多模态交互做差异化没问题,B端永远看低成本、高稳定、可量化的效果。先把业务流程里所有非结构化数据的问题点捋一遍:手工单据、设备拍的照片、方言录音、模糊的客户素材。用Omni在后台静默做结构化,数据的价值比酷炫的交互值钱得多。企业愿意持续付钱的是这个。

生态红利和绑定风险怎么平衡?

Gemini生态现在的闭环黏性很强:3.5Flash成了谷歌搜索、AI模式、Gemini应用的默认模型,深度打通了搜索、云、Android、Workspace、电商。用户量和生态活跃度确实全球第一。对开发者来说,基础设施完善、模型能力成熟、流量入口大,早点进去能快速验证产品。但深度绑定谷歌也意味着你的技术栈和数据架构都依赖它,以后想迁移成本巨大。怎么在大厂红利和自己核心

壁垒之间找平衡,每个团队都得想清楚。

最后,Google I/O 2026的信号很清楚:Agentic AI不是功能更新,是行业规则在变。以后不是比谁对话更流畅、生成画面更好看,是比谁能自主完成任务、落地多快、成本结构能不能跑通。

Gemini 3.5系列就是谷歌给行业的标准化工具。但工具说到底只是工具。决定你竞争力的,从来不是会不会用新模型,而是能不能判断:哪些业务适合Agent化?怎么设计低成本架构?怎么把技术变成可量化的业务结果?Agentic时代的大门开着,每个人都要给出自己的答案。

作者:冒泡泡

]]>
Gemini 3.5 发布|Google I/O 2026 全整理 //www.f-o-p.com/381687.html Thu, 21 May 2026 05:49:57 +0000 //www.f-o-p.com/?p=381687

 

今天凌晨,Google 的年度发布会 I/O 2026,主题为「agentic era」,发布了大量新品。在看完整场发布会后,带来了如下整理,九个章节逐个展开

Gemini 3.5 Flash·谷歌家的最新模型,全面超越 3.1 Pro,速度 4 倍于同级模型

Gemini Omni·世界模型,从任意输入生成任意输出,Omni Flash 今天上线

Antigravity 2.0·agent-first 开发平台,桌面应用 + CLI + SDK + Managed Agents

Gemini Spark·私人 AI agent,7×24 后台执行,新 $100/月 Ultra 计划

Search 改版·新搜索框、Search Agents、Generative UI

电商三件套·UCP 协议 + AP2 支付 + Universal Cart 统一购物车

Gemini App + 创意工具·Neural Expressive 重设计、Daily Brief、Flow、Pics、Stitch、Docs Live

智能眼镜·Samsung + Gentle Monster + Warby Parker,音频眼镜秋季上市

DeepMind 科学 + 安全·Gemini for Science、WeatherNext、SynthID 扩展

01 Gemini 3.5 Flash

Gemini 3.5 Flash 是今天新发布的模型,同步上线进了 Gemini app、Search AI Mode、Gemini API 并成了的默认模型

至于 3.5 Pro,目前还在内测中,预计下个月放出

Benchmark

Terminal-Bench 2.1 编码: 76.2%(3.1 Pro 70.3%)。GDPval-AA 真实任务: 1656 Elo(3.1 Pro 1314),跳了一档。MCP Atlas 工具调用: 83.6%(3.1 Pro 78.2%)。CharXiv 多模态推理: 84.2%。几乎所有指标都超过了自家上一代旗舰 3.1 Pro

Gemini 3.5 Flash vs 3.1 Pro 各项 benchmark 对比

速度

输出速度 289 tok/s,是同级别 frontier 模型的四倍。在 Antigravity 内部经过联合优化后,达到 12 倍。速度直接影响 agent 的可用性: agent 需要反复调用模型做规划、执行、验证,每一轮都要等模型回复,慢了就没法做实时任务

价格与上下文

API 定价 $1.50 / $9.00 per 1M token(输入/输出),缓存输入 $0.15。上下文窗口 1M token。这个价格比同水平 frontier 模型便宜一半以上,Google 给出的算法: 头部 Cloud 客户如果把 80% frontier 工作负载切到 3.5 Flash,每年省超 10 亿美元

Gemini 3.5 Flash 速度 vs 智能 四象限图

内部使用数据

Google 内部开发者三月份每天消耗 5000 亿 token,到现在已经超过 3 万亿 token/天,两个月翻了六倍。这个内部消耗形成了数据飞轮: 工程师用得越多,模型团队收到的真实反馈越多,3.5 的迭代速度就越快。375+ 外部客户各自处理超过 1 万亿 token

02 Gemini Omni: 世界模型

Gemini Omini 是一款世界模型(World Model),能够理解和模拟真实世界的物理规则、空间关系、因果链条

当然,你可以理解成这是生视频模型

Gemini Omni 把 Gemini 的推理能力和 Veo(视频)、Nano Banana(图像)、Genie(交互模拟)的生成能力合进一个统一模型

能做什么

各种物理效果的模拟,比之前有了跨越式提升。可以用一句 prompt 生成蛋白质折叠的黏土动画,模型会自动理解氨基酸链的折叠过程并准确呈现。支持对话式视频编辑: 拿自拍视频做输入,用自然语言改风格、加元素、换视角,保留原始动作,整个场景跟着变形

提示词:蛋白质折叠的黏土动画科普讲解,所有元素都由黏土制成,无手部出现,定格动画风格,科学准确。

为什么是「从任意输入到任意输出」

之前的生成模型是单模态的: Veo 把文本变视频,Nano Banana 把文本变图片。Omni 的目标是打通所有模态,输入可以是文本、图片、视频、音频的任意组合,输出也是。Google 从一开始就把 Gemini 做成多模态原生架构,现在这个架构开始体现优势

首发模型与可用性

今天发布 Gemini Omni Flash。已上线 Gemini app、Google Flow、YouTube Shorts。YouTube Shorts 用户免费。Gemini app 和 Flow 需要 AI Plus / Pro / Ultra 订阅。Omni Pro 即将推出

提示词:当人物触碰镜子时,让镜面像液体一样优美地泛起涟漪,同时人物的手臂变成具有反光效果的镜面材质

03 Antigravity 2.0

Google 的 agent-first 开发平台,从去年的 IDE 扩展成完整产品线。今天同时发布四个产品形态: 独立桌面应用(macOS / Linux / Windows)、CLI、SDK,加上 Gemini API 里的 Managed Agents

桌面应用: 不再是 IDE

Antigravity 2.0 的核心对象不是代码仓库: 它是一个 agent 编排桌面应用,围绕任务、项目、对话和产出物构建。为什么要和 IDE 分开? 因为真实的业务任务很少只涉及一个代码仓库,agent 需要跨文件夹、跨工具、跨项目地工作

支持多 agent 并行编排: 主 agent 定义并调用 subagent 做子任务,避免上下文窗口过载,允许并行。新增 Scheduled Tasks(定时任务)、JSON Hooks(行为拦截)、项目级权限。新增 slash 命令: /goal, /grill-me, /schedule, /browser 等

Antigravity 2.0 桌面应用界面

造操作系统的演示

用 3.5 Flash + subagent 机制,从零造了一个能运行的操作系统。12 小时,93 个 subagent 并行,15000 次模型请求,26 亿 token,不到 $1000 API 额度。现场在这个 OS 里跑了 Doom。之前在 3.1 Pro 上做不到这件事,是 3.5 Flash 的性能和成本结构让它变得可行

Antigravity 自建 OS 终端里跑 Doom

CLI: 替代 Gemini CLI

Antigravity CLI 用 Go 重写,共享 Antigravity 2.0 的 agent harness。保留 Agent Skills、Hooks、Subagents,Extensions 改名 Plugins。Gemini CLI 和 Code Assist IDE 插件 6 月 18 日停服,要求用户迁移到 Antigravity CLI

SDK + Managed Agents

Antigravity SDK 可以定义自定义 agent 并部署到自有基础设施。Managed Agents 是 Gemini API 里的新能力: 一次 API 调用即可启动 agent,跑在隔离的 Linux 沙箱环境里,可保留状态,通过 Interactions API 和 AI Studio 访问。Google 提供 agent 模板,开发者用 markdown 文件扩展指令和技能

AI Studio 更新

集成 Antigravity 编码 agent。新增手机端 AI Studio app,支持原生 Android / Kotlin / Jetpack Compose 应用生成,带浏览器内 Android 模拟器和 Play Console 内部测试轨直接发布。新增导出到 Antigravity 桌面应用。前两个 Cloud 部署免费

04 Gemini Spark

一句话: 你的私人 AI agent,关掉电脑也不停。跑在 Google Cloud 的专属虚拟机上,底层是 3.5 Flash + Antigravity Harness。可以从 Gemini app、邮件、聊天触达

怎么用

跨 Gmail、Drive、Sheets、Slides、Calendar 执行多步任务。演示了 block party 筹备: 自动从 Gmail 抓 RSVP,在 Sheets 建实时追踪表(Gmail 来新回复自动更新),生成 Slides 邀请函,从 Drive 抓业主委员会规定,给没报名的邻居写跟进邮件

支持用户自定义 Skills(上传 prompt 模板让邮件风格像自己)。语音 brain dump时能一口气丢多个任务,Spark 自动拆分成子线程。需要人工确认的操作会暂停等你批准

Gemini Spark: 多任务后台执行 + 实时同步到手机

Mac 版

在 Finder 选中文件,长按 Function 键语音口述,Gemini 读取 PDF 和图片后生成带表格的邮件。说了「Thursday」又改口「Friday」,自动修正。Mac 版由小团队用 Antigravity 从零开发,100 天做了 100+ 功能

定价与时间线

本周向 trusted tester 开放,下周以 beta 给美国 AI Ultra 订阅者。新推出 $100/月 Ultra 计划,然后最贵的套餐从 $250/月,降低到了$200/月。今年夏天进 Chrome 做浏览器 agentic 操作

今年晚些推出 Android Halo(手机端 agent 专属入口)。MCP 集成 即将上线,首批合作伙伴包括 Instacart

05 Search 改版

AI Mode 升级到 3.5 Flash。AI Mode 月活超 10 亿,查询量每季度翻倍。上季度 Search 查询总量创历史新高,AI Overviews 月活 25 亿

新搜索框

25 年来最大升级。搜索框可展开,支持文本、图片、文件、视频、Chrome Tab多模态输入。输入过程中 AI 实时给建议,帮你补充没想到的维度,远超传统自动补全。今天全球上线

新搜索框: 多模态输入 + AI 建议展开

AI Overviews + AI Mode 合流

之前 AI Overviews 和 AI Mode 是两个独立入口。现在合并: 在主搜索结果页看到 AI 回答后,直接滑入 AI Mode 追问,上下文保持连贯,链接和信息源越来越相关。桌面 + 移动端今天同步上线

Search Agents

在 Search 里创建 7×24 后台信息 agent。给复杂条件(P/E 低于 15 的生物科技股、正现金流、低负债),agent 自己拆计划、设触发器、接实时金融数据,条件满足时推综合分析并指向相关内容源。适用于找房、蹲球鞋发售等。可以同时开多个 agent,与 Gemini Spark 协同。今年夏天上线

Search Agent: 金融数据追踪 + 实时分析推送

Generative UI

搜索引擎内置 Antigravity 编码能力,用 3.5 Flash 实时写代码为每个问题生成定制化交互界面。搜索「黑洞怎么影响时空」,AI Overview 里直接出可调参数的 3D 模拟。搜索「周末全家活动」,现场生成 Weekend Planner 小应用(带日历同步、Maps 餐厅、天气、驾车时间)。可分享、可反复使用。今年夏天免费上线,订阅用户可自建

Generative UI: 从搜索问题到可交互 3D 可视化

06 电商: UCP + AP2 + Universal Cart

Agent 替你买东西,需要解决三个问题: 商家怎么跟 agent 对话(协议)、agent 怎么安全地付钱(支付)、购物车怎么跨平台统一(体验)

UCP(Universal Commerce Protocol)

开源协议,给 agent 和电商系统定义通用语言。覆盖从商品研究到结账到物流追踪的全流程。跟 Amazon、Meta、Microsoft、Salesforce、Stripe 共同开发

扩展到酒店、本地外卖、YouTube。即将在加拿大、澳大利亚、英国上线

AP2(Agent Payments Protocol)

你给 agent 设品牌、产品、预算的硬边界,条件满足才自动购买。用防篡改的数字授权书把你、商家、支付方三方拴在一起,隐私数据加密。退货时双方看同一份记录,这项功能,由 Gemini Spark 首发

Universal Cart

跨 Search、Gemini、YouTube、Gmail 的统一购物车。加入商品后后台自动追踪降价、库存、优惠。兼容性检查: 你选的处理器和主板插槽对不对,购物车替你把关。接入 Google Wallet,自动匹配信用卡优惠今年夏天美国上线 Search 和 Gemini app,YouTube / Gmail 随后

Universal Cart: 跨平台购物车 + 兼容性检查 + 价格追踪

07 Gemini App 重设计与创意工具

Neural Expressive

Gemini app 全面重设计。新设计语言: 流体动画、震动反馈、新排版。回答不再是文字墙,而是实时生成定制化卡片、交互图片、时间轴、嵌入视频。支持地区方言。Android / iOS / Web 今天全球上线

Neural Expressive

Daily Brief

每天早上自动从收件箱、日历、任务里摘要点,按主题分组,带下一步建议。今天上线给美国 AI Plus / Pro / Ultra 订阅者

Gemini Omni in App

付费订阅者今天可以在 app 里用 Omni 做视频创作和编辑。演示了从原始素材 + 参考图 + 风格指令生成音乐视频,转换视角到 360 度镜头,保留原始动作和物理感

Google Pics

Workspace 新产品。AI 图片创建和编辑,能识别画面物体关系,点击移除、调整大小、加文字、一键翻译。所有输出带 SynthID 水印。今年夏天

Stitch

UI 设计工具,过去一年全球用户生成了 1 亿+ UI 界面。新增语音实时协作,可导出代码或一键发布网站。今天全球上线

Google Flow

新增 Gemini Omni 支持,单张图片一次出 16 个不同机位的视频。Flow Agent(多任务并行)、Flow Tools(vibe-code 自建创意工具)。Flow Music 从录音生成歌曲 demo。今天全部上线

Docs Live

用语音对 Gemini 做 brain dump,自动从 Drive / Gmail 抓材料,生成、格式化、编辑文档。今年夏天给 Pro / Ultra 订阅者,同步到 Gmail 和 Keep

08 智能眼镜

Android XR 平台上的 Intelligent Eyewear,分两种: 音频眼镜(今年秋天上市)和显示眼镜(还在招募测试)

合作与设计

Samsung 做硬件,Gentle Monster 和 Warby Parker 做设计,首次公开各一款设计。兼容 Android 和 iOS

Warby Parker 款 + Gentle Monster 款智能眼镜设计

音频眼镜能力

Gemini 语音私密对话(骨传导)。免提导航(结合 Personal Intelligence 调出历史地点)。App 操作代理: 演示了在 Doordash 上点咖啡,Gemini 自动在手机上打开 app → 选品 → 确认订单

显示眼镜

镜片内小屏幕。可看 Uber 接车信息、实时翻译、Create My Widget 自定义界面。开发者已在创建显示体验,更多细节今年晚些时候公布

09 DeepMind 科学与内容安全

Gemini for Science

三个实验性工具: Literature Insights(跟踪新论文)、Computational Discovery(研究目标转可执行代码)、Hypothesis Generation(AI 生成科学假说)。搭配 Co-Scientist 多 agent 科研伙伴使用

AlphaEarth Foundations

行星级数字孪生,用于模拟森林退化、粮食安全等动态系统

WeatherNext

2025 年飓风季,提前三天预测五级飓风 Melissa 的快速增强和登陆路径,比传统模型更早更准。美国国家飓风中心已将其纳入常规预测工具

Isomorphic Labs

分子交互建模加速新药研发。多个项目进入临床前阶段,包括免疫疾病和癌症的潜在治疗方案

SynthID + Content Credentials

SynthID 已为 1000 亿张图片和视频 打上水印,外加 6 万年音频资产。OpenAI、Kakao、ElevenLabs 宣布采用 SynthID。Content Credentials Verification 扩展到 Search 和 Chrome,右键或圈选搜索即可验证。新增 AI Content Detection API 供第三方使用。安全 agent CodeMender 开放 API 测试

作者:赛博禅心

来源:赛博禅心

]]>
谷歌 I/O全盘点:2大新模型上线 //www.f-o-p.com/381632.html Wed, 20 May 2026 02:32:54 +0000 //www.f-o-p.com/?p=381632

 

千呼万唤始出来,北京时间 2026 年 5 月 20 日凌晨,Google I/O 2026 终于开幕。因为 Google 提前用 The Android Show「分流」了 Android 17 的新功能,AI 终于成为了 Google I/O 2026 的主角。

但不同于其他 AI 企业,Google 同时掌握 Gemini、YouTube、Google 网页搜索、Android 等多个不同的互联网生态入口。因此「如何用 AI 为这些生态服务『赋能』」,也成了此次 Google I/O 的重点。

Gemini OmniGemini 3.5:新模型让 Google AI 更全能

Gemini 模型方面,Google 在 Google I/O 上正式发布了最新、最全能的 Gemini Omni。有多全能?用一句话来概括,就是「Gemini Omni 能从任何形式的输入,获得任何形式的输出」,且 Gemini Omni 还可以直接在生成过程中,以对话形式进行修改。

图片来源:Google

以 MV 生成为例,只要把音乐、视频、图片素材和对画面的大致需求「喂」给 Gemini Omni,Gemini Omni 就能直接输出对应的短视频。在活动上,Google 还演示了一个非常夸张的 AIGC 案例:

在一张白纸上手绘一个圆圈,再加上一句文字描述,Gemini Omni 就能直接输出一个完整的特效视频。但这还没完,如果你对画面元素或风格不满意,只要一句话就能在不变动其他画面元素的情况下,精准修改指定元素,比如「把玻璃建筑替换为肥皂泡」,后者甚至还拥有自己的物理碰撞效果。

图片来源:Google

用 Google 自己的话来说,「Gemini Omni 就像是视频领域的 Nano Banana」

根据 Google 的介绍,Google Omni Flash 模型即日起将在 Gemini App、Google Flow、YouTube Shorts 等平台上线,对应 API 将在之后开放。

图片来源:Google

除了「全能模型」Google Omni,Gemini 在 Google I/O 上也升级到了 Gemini 3.5 版本(Gemini 3.5 Flash)。和 Gemini 3.1 Pro 相比,Gemini 3.5 Flash 在编程、现实环境智能体(Real-World Agentic)、大规模工具调用等测试上都有所提升。

当然了,对于 AI 模型而言,「有轻量级的 Flash 就必然有专业级的 Pro」——在活动上 Google 也预告Gemini 3.5 Pro 将在下个月登场,但并未公布其他信息。

用一句话来总结,那就是「多快好省」四个字,Google 这次全都做到了。

Google Antigravity、Gemini Spark:更快、更强的智能体

底层模型能力变强了,那基于 Gemini 的 AI Agent 自然也得到了升级。

图片来源:Google

开发者侧,Google 的 AI 开发环境 Antigravity 也用上了 Gemini 3.5 Flash。根据 Google 介绍,在 Gemini 3.5 Flash 的支持下,Antigravity 只用了 12 个小时就搭建了一个操作系统内核,而整个开发过程的 AI API 成本还不到一千美元。

图片来源:Google

Google 甚至用 Antigravity 和 Gemini 3.5 Flash 重构了 Google 搜索的交互界面,提出了全新的「生成式 UI」概念。平时常用 Google 或其他 AI 搜索引擎的朋友应该知道,即使在搜索页面开启了 AI 模式(此处指的不是在 AI App 中以「询问」实现的知识库搜索),这个 AI 模式依旧是以对话框(ChatBox)的形式输出结果。

图片来源:Google

对于一般的 AI 搜索来说,对话框的交互模式确实够用了。但如果用户问出的某个问题需要一些直观的演示,比如「陀飞轮是怎么工作的?」,文本框模式就排不上用场了。对此,Google 基于 Antigravity 的编程能力,打造了一个「自适应、自生成」的 AI 搜索 UI。

图片来源:Google

简单来说,面对复杂问题是此时 Google 搜索会用「Vibe Coding」的方式,直接写一个可以互动的前端网页,直接以互动的方式回答用户的问题。

可惜的是,这项功能要等到 26 年夏季才会向用户开放。但好消息是,这项功能属于 Google 搜索的更新,不需要花钱订阅 Gemini 也能使用。另外,Gemini App 本身的 UI 也得到了升级,与新的 Android 视觉元素更加统一。

得益于 Gemini 3.5 Flash 的多模态能力,Google 搜索的 AI 预测和多模态能力也得到了提升。除了文字、以图搜图外,全新的 Google 搜索也可以直接输入视频或文档;曾经按照大数据智能排序的搜索推荐,现在也升级成了基于 Gemini 3.5 Flash 的 AI 搜索补全。

图片来源:Google

除了前台可见的升级,Google 还全面提升了搜索 Agent 的「后台能力」:全新的 搜索 Agent 可以在后台全天运行,按照用户的要求持续监控特定信息。比如小雷在睡觉前就可以让搜索 Agent 时刻关注 OpenAI、Anthropic、Grok、Perplexity 等 AI 企业和 X 上的 AI 新闻,在出现不容错过的热点时直接邮件轰炸我的手机,让我爬起来写稿。

说到 Agent,Google 还在互动上正式发布了面向个人用户的全新 Agent——Gemini Spark。和其他 AI Agent 一样,Gemini Spark 同样可以 24×7 全天接管用户的手机和浏览器。但不同于当前主流的托管类 Agent,Gemini Spark 会运行在专门的虚拟化环境中。

图片来源:Google

很显然,Gemini Spark 同样由 Gemini 3.5 Flash、Antigravity 驱动,自然也支持语音交互和后台响应。而在外部联动上,Gemini Spark 不仅可以直接和 Google 生态的其他组件(Google Docs、Google Calendar、Gmail 等)直接联动,还可以通过 MCP 协议与外部 App 互联互通,实现更全面的任务托管。

Google 并未在活动中公布 Gemini Spark 的平台适配情况,雷科技预计 Gemini Spark 会以 Gemini App(iOS)、Google 搜索组件(Android)的方式登陆手机。

图片来源:Google

而在 AI Agent 运行时(无论前后台),新加入的 Android Halo 功能会在 Android 手机屏幕左上角常驻一个 Agent 状态标记,方便用户随时跳转到 Agent 界面,感觉就和现在手机的「摄像头提示」「麦克风提示」差不多。

在雷科技看来,Android Halo 的出现,其实也从另一个角度强调了 Agent 的重要性:尽管从技术上讲,Gemini Spark 只是一个「软件功能」,但其地位早已和摄像头和麦克风一样,是手机不可或缺的核心组成。

图片来源:Google

电脑方面,Google 提到 Gemini Spark 将在 26 年夏季登陆 Chrome 浏览器。

但不同于豆包等部分付费的国内 AI Agent,Gemini Spark 为全订阅功能,下周会开放给 Google AI Ultra 订阅用户。

值得一提的是,为了区分企业用户和高用量个人用户,Google 在原本的 AI Pro(每月 20 美元)、AI Ultra(每月 250 美元、限时降价至每月 200 美元)之间,额外加入了一个「青春版」AI Ultra 等级(每月 100 美元)。

图片来源:Google

看得出,即使是「财大气粗」的 Google ,也难以靠免费模式维持这种全面 AI 带来的巨大算力成本。说到底,AI 的尽头是算力,算力的尽头是硬件,而硬件的尽头是钱。在 AI 时代,互联网巨头已经难以靠硬件销售和服务订阅来维持 AI 的成本了。

夸张点说,随着 AI Agent 的能力进一步扩展,付费 AI 服务很有可能会变得跟手机套餐一样,成为我们「刚性消费」的一部分。

音频眼镜首次登台,Gemini 生态日渐完善

在去年,Google 展示了带显示功能的 AI 眼镜。在今年的 google I/O 上,Google 也带来了「音频版」智能眼镜的预览。首先,尽管名字叫「音频智能眼镜」,但这类 Gemini 眼镜并不是界环那种纯音频眼镜,而是搭载摄像头、拥有 AI 视觉和多模态输入能力的音频眼镜。

由于眼镜要 26 年秋季才发布(高概率是配合高通骁龙峰会上的新芯片),所以 Google 并未在 Google I/O 上公布重量、传感器型号、续航等产品具体信息,只展示了产品外观和大致的功能。

图片来源:Google

设计方面,Google I/O 上提到了三星与 Gentle Monster、Warby Parker 两大知名眼镜品牌合作打造的智能眼镜。功能上,两款眼镜和现有的 AR1 智能眼镜类似,可以用语音或右边镜腿的触控板唤醒 Gemini。

得益于 Gemini 底层模型和 Spark 智能体的能力,Gemini 眼镜可以全自动把用户的语音指令拆解成 Agent 动作,并在用户的手机上后台执行。用户可以在眼镜上用语音要求 Gemini「买一杯上次点的咖啡」;手机上的 Gemini 就可以自动打开咖啡 App、自动添加商品到购物车,并在用户语音确认(应该和国内 AI 眼镜一样采用声纹验证技术)后直接下单。

图片来源:Google

值得一提的是,Google 还提到 Gemini AI 音频眼镜将支持 Android 和 iOS 两个平台。可以肯定的是,在 iOS 极为严格的 App 沙盒机制下,Gemini 音频眼镜的能力和 Android 平台相比必然大打折扣。

为了拓展 Gemini 的能力边界,Google 也把自己的办公套件(Google Workspace)全面 AI 化:用户可以用语音调用 Gemini 查找邮件信息(Gmail Live)、写作(Docs Live)甚至是生成图像(Google Pics)。

图片来源:Google

结合此前 Android 17 选题里提到的高端 Googlebook,谷歌今年是在不遗余力地把 Gemini 塞进自己能掌控的每一个生态硬件里。

Google I/O 的主题演讲的到这里就告一段落了,看到这里,可能有人会觉得此次 Google I/O 只不过是 Google 在 AI 大战落伍后的「画饼」行为。但在雷科技看来,Google I/O 2026 主题演讲提到的内容,其实意味着谷歌终于摸到了 AI 时代的正确门票。

比如针对「AI 能干什么」这个问题,Google 直接对自己的「发家业务」开刀,用生成式 UI 改变了 AIGC「回合制」「单向交互」的设定。这种从单向到双向的转变也出现在了 Gemini 智能硬件中。过去很长一段时间里,AI 硬件赛道都没有出现真正的「双向 AI 设备」:硬件是硬件,AI 是 AI,两者割裂极为严重。

图片来源:Google

而这一次,Gemini 3.5 Flash 的多模态能力,真正让音频眼镜等设备成为了 Gemini 的「物理器官」,再加上上周发布的 Googlebook,Gemini 终于拥有了主动感知世界、主动输出结果的能力。

更重要的是,Gemini 正利用其在 Android 系统中的「特权」,构筑一道其他厂商无法逾越的护城河。当海外的 Anthropic、国内的各类大模型智能体还在沙盒机制的边缘试探,用 MCP 协议艰难地搞跨 App 协同操作时,Gemini 已经在 Android 底层实现了畅通无阻的原生互通。

还记得我们开头是说过的「Google 同时掌握 Gemini、YouTube、Google 网页搜索、Android 等多个不同的互联网生态入口」吗,在 Google I/O 2026 上,这些四面「开花」的生态入口,终于等来了「结果」的季节。

但话又说回来,Gemini 高度依靠 Google 生态,这对 OpenAI、Grok 来说或许是个挑战;但对国内 AI 企业来说,这也是 Gemini 留给他们的机遇。

毫无疑问,Gemini 在海外再怎么大杀四方、原生互通,这套全家桶生态在国内依旧「水土不服」。但这套「多模态输入输出 + 私有系统 + 全天候托管 Agent」的业务逻辑,却给国内 AI 企业指明了发展的道路:

海外有谷歌在原生底层大刀阔斧地破除沙盒限制,国内厂商同样能在定制安卓系统里搞起自己的「独立王国」。

更重要的是,中国品牌在智能体本土化落地上的卷度,甚至比原生安卓还要激进,还更接地气。在 Google I/O 2026 上,Google 亮出了 Gemini 的底牌,接下来就看国内 AI 巨头们和手机品牌们如何强强联手,用合作「破局」了。

]]>