GPT-5.5 – 青瓜传媒

Opus 4.8、GPT-5.5、DeepSeek V4、MiniMax M3测评

青瓜传媒 — Wed, 10 Jun 2026 00:45:19 +0000

最近，模型圈的节奏又加快了。Opus 4.8、GPT-5.5、Qwen3.7-Plus、MiniMax M3，四款重量级模型几乎同时登场，想认真跟一遍都很难。

昨天，我注意到一个榜单叫「Browse Code」，专门测LLM在真实浏览器环境里完成编程和网页自动化任务的成功率。

没想到，MiniMax M3在这个榜上从M2.7时期的倒数第二直接冲到了全球第五，和Claude 4.6 Sonnet、Gemini 3.5 Flash并排。

当然，一个榜单说明不了全部问题。所以我花了356元，把Claude Opus 4.8、GPT-5.5、DeepSeek-V4-Pro和MiniMax M3这四个模型拉到一起，用同一套任务、同一条提示词、同一个评分标准，全部接API走Claude Code/Codex测了一遍。

覆盖了3D编程、视觉编程、游戏开发、Agent长程任务四大场景，横评结果如下。

01 一手横评

本次测评的原则是：变量归一，对比才有意义。

四个模型用同一份视觉素材、同一条提示词，分别接各家API在Claude Code / Codex里跑，最终从任务完成度和输出质量两个维度来评价，场景覆盖3D编程、视觉编程（网站开发）、游戏开发和Agent长程任务（Office三件套 + Coding）。

1）3D任务

先给模型看一张金门大桥的实景照片，然后让它根据桥体外观，用Three.js写一个3D交互网页。

这个任务的考验是三维的：第一，模型要有视觉理解能力，能从图片里提取出关键的结构特征；第二，要能把这些特征准确映射到三维空间的几何关系上；第三，Three.js代码质量要过关，别写出跑起来就崩的东西。

三项能力任缺一项，结果都会差很多。提示词：参考“金门大桥.jpeg”的外观构造，帮我开发一个旧金山的金门大桥的3D交互网页，要求如下：- 使用 Three.js，全部用程序化几何体生成，不加载外部3D模型。- 桥体主色为国际橙色(#C47832)，塔柱为Art Deco风格，桥体结构高度还原“金门大桥.png”的倒弧形外观结构。- 准确还原金门大桥标志性的国际橙色桥塔、双塔悬索结构，包含主缆、吊索、桥面和车道分隔线。- 环境包括：深蓝色波浪海水、天空渐变雾效，远处绿色山丘和城市群。- 动态：海水浮动、云影移动、支持鼠标拖拽旋转/缩放。- 性能：全屏自适应，使用Three.jsr128，输出一个可直接运行的HTML文件。- 支持鼠标拖拽旋转、缩放、平移，初始视角从西南方向俯瞰大桥。

Claude Opus 4.8：

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

这个Case里，毋庸置疑表现最好的是Claude Opus 4.8，MiniMax M3紧随其后。

这两个模型都准确还原了金门大桥最标志性的一个物理细节：主缆从两侧塔顶向跨中垂下来的倒弧形外观。这说明它们不只是在描述一座桥，而是真正理解了悬索桥的结构原理，并能把这个理解翻译成三维几何。

GPT-5.5和DeepSeek-V4-Pro则没有还原出这个特征，输出的桥体五花八门。

尤其是GPT-5.5，它的编程审美怎么描述呢，有种浓眉大眼的感觉，就很粗糙。后面几个Case，它的这个特征会一直持续。Claude和M3的视觉语言则完全相反，一看就很精致、高级，有明确的设计意识。

另外值得一提的是，DeepSeek的海洋流体动效设计得挺有意思，但天空出现了穿模问题，说明三维空间的碰撞逻辑还是处理得不够扎实。

这轮实测：Claude Opus 4.8 > MiniMax M3 > GPT-5.5 > DeepSeek-V4-Pro。

2）视觉编程（网站开发）

前几天给大家分享了“冷同学的院子”这个民宿概念，这次顺手让模型给它开发一个官网。

我的提示词故意没有给出具体的设计指令，只丢了民宿信息和素材包，让模型自己做判断——哪些素材该用、怎么排版、用什么设计语言。

这其实是在测两件事：一是视觉理解能力，模型能不能“看懂”图片、视频素材的内容和质量；二是设计决策能力，能不能根据品牌调性做出合理的创作取舍。提示词：

给这家民宿设计一个官方网站。
民宿的基本信息：
– 民宿名称：冷同学的院子
– Slogan：云朵上的院子，冷同学的家
– 地理位置：四川汶川（羌族文化核心区、高山峡谷地带）
– 品牌调性关键词：温暖治愈
· 在地羌韵
· 自然松弛
· 外冷内热
· 有故事感
– 目标客群：追求慢生活的年轻人、亲子家庭、文化旅行者、成都周末度假客、川西旅游爱好者文件夹
【民宿资料包】
放着很多民宿的素材，有logo、门店、房间、周边和宣传视频，你自己决定用哪些素材（不是所有素材都用上）。我只需要最终交付的网站顶级审美，让人看了就想马上去玩。

Claude Opus 4.8：

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

这轮表现最好的是MiniMax M3。它确实“看懂”了我的素材和需求，一上来先给我梳理了开发计划。

然后定义出设计语言：大面积米白留白加克制几何为”冷”，羌红/赭金/暖木色为”热”，再把这两套视觉语言融在一起，做成”外冷内热”的调性表达。审美参考了了Aman侘寂、松赞在地文化和虹夕诺雅的克制感。

这就是视觉理解能力和设计品位带来的差距。只靠读文字提示词，是做不到这个程度的。

房型展示那一屏，M3用了左右交错的错位布局来呈现房型和价格，节奏感很好，看完真的有预订的冲动。

Opus 4.8也不赖，几处书法字体的运用尤其喜欢，素材选用也很克制，没有全部堆进去。

GPT-5.5继续它“浓眉大眼”的直男审美：大标题、方方正正的排版，完全没有灵活性，是真的很丑。

DeepSeek-V4-Pro的审美比GPT-5.5耐看一点，但它缺乏视觉理解能力，所以根本不知道哪些图该用、用在哪里，索性把所有素材全堆进去，结果图文错乱，部分页面文不对题。这是能力上的硬限制，不是调整提示词能解决的问题。

这轮测试：MiniMax M3 > Claude Opus 4.8 > GPT-5.5 > DeepSeek-V4-Pro。

3）游戏开发

不知道大家在手机上玩过“抓大鹅”没？你可能没玩过，但你的另一半一定玩过。

这次我先跟AI沟通设计了一份PRD，再让模型根据PRD开发一款web端的抓大鹅游戏。

这个任务的考验点在于：模型能不能完整、准确地读懂设计文档里的功能描述，并把每一条需求准确地转化成可运行的代码，同时把游戏体验和视觉完成度都顾到。提示词：

请按PRD“大鹅.png”的要求，帮我创建一个网页版《抓大鹅》3D堆叠消除游戏。
要求：
1、6种不同颜色/形状的物品，共36个，随机堆叠在3D空间中。
2、鼠标点击物品后消失，图标进入底部7格暂存栏。
3、暂存栏出现3个相同物品时自动消除。
4、暂存栏满7个不同物品时失败，场上物品清空时胜利。
5、提供洗牌、移除、回退三个道具按钮，各3次使用次数。
6、支持鼠标拖拽旋转视角和滚轮缩放。
7、支持localStorage保存进度和复活功能。
8、输出一个完整的html文件，可直接在浏览器运行。

Claude Opus 4.8：

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

四个模型都把游戏开发出来了，核心功能都对，说明面对有明确PRD的开发任务，主流模型基本都能过关了。

有意义的差异集中在两点：一是前端审美，Claude依旧最耐看，DeepSeek和M3也还行，GPT-5.5最丑；二是细节完成度，PRD里有一项要求是“通关后奖励一只大鹅”，只有M3做到了，其他三个模型都漏掉了这个细节。

这轮测试：Claude Opus 4.8 ≈ MiniMax M3 > DeepSeek-V4-Pro > GPT-5.5。

4）Agent长程任务

最后一个Case也是最复杂的：我们让各个模型用Claude Code / Codex做一个联网搜索 + word/PDF生成 + skill调用 + 网站开发的复杂长程任务。提示词：

联网搜索电影《火遮眼》的关键信息内容，尽量从权威信源获取内容。先给我创建一份2000字的word调研报告（含pdf版）。然后调用guizang-ppt skill生成一份12页的PPT，宣传一下这部电影。

Claude Opus 4.8：

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

这个任务的难点在于“长”——不只是单步执行，而是要求模型在跨越多个工具调用节点的情况下，始终保持上下文连贯、指令不漂移。这对模型的长程稳定性和工具协调能力要求很高。

先说PPT的完成度：GPT-5.5、Opus 4.8和M3都交付了质量不错的PPT，Claude每页带微动画，GPT-5.5有真实配图（应该是Codex的原因），M3的色彩搭配比较好看。DeepSeek-V4-Pro在这一项差了明显一截，排版、配色和交互都不在同一个水平线上。

调研报告的内容质量：Opus 4.8、M3和GPT-5.5不相上下，DeepSeek-V4-Pro垫底。

关于DeepSeek-V4-Pro有一个独立的问题值得单说：它在Claude Code里跑得极慢，而且频繁中途停摆不再继续输出。这个PPT任务它跑了整整36分钟，期间多次卡顿。

大概率是DeepSeek并未针对Claude Code做更多适配导致的，属于工程层面的问题，而不只是模型能力本身的问题。但从用户体验角度来说，这个差异是实实在在存在的。

这轮测试：GPT-5.5 ≈ Claude Opus 4.8 ≈ MiniMax M3 > DeepSeek-V4-Pro。

02 实测总结

四轮任务跑下来，先看综合能力，再看成本。

能力上，Claude Opus 4.8是这次横评里综合实力最强的，稳如预期。

M3是最大的惊喜，整体水平大约在Opus 4.7和4.8之间，与Opus 4.8的差距比我预想的要小。

GPT-5.5表现不稳定，有时候在线，有时候掉链子，前端审美上的短板在编程场景里是一个贯穿始终的减分项。

DeepSeek-V4-Pro整体能力不如其他三家，Agent长程任务的稳定性和代码生成质量都有差距。

成本这块，本期测评费用明细：

Claude Opus 4.8，接API测的，50美刀；

GPT-5.5，在Codex里用的，大约2美刀；

MiniMax M3，我订的Token Plan极速版，每月有12亿额度的M3 Token，这期用了约2000万token，折下来大约2 块钱；

DeepSeek-V4-Pro，大量输入命中缓存，不到2元。

换算下来总计356元，而两款国产模型加起来不到总费用的零头。性价比这件事，真的越来越不好意思讨论了。

03 写在最后

模型到底行不行，很多时候只有真实用过才知道，benchmark数字只是参考，不是结论。

至少从这几轮Coding任务来看，Claude Opus 4.8的前沿地位还是稳的。MiniMax M3也不差，大概是Opus 4.7的水准，很接近Opus 4.8了。

GPT-5.5可能在办公类任务上更有优势，但Coding层面的审美问题不是小问题，对于编程场景来说是一个明显的硬伤，而且这个问题不是靠调提示词就能解决的。

DeepSeek-V4-Pro性价比依然很高，但这次测评也暴露了它在Agent适配、长程稳定性和代码生成质量上与另外三家的真实差距。差距不是追不上，但需要时间。

说实话，这轮测下来最让我兴奋的是前几天发布的M3。我没想到它能这么接近Opus 4.8。1M上下文+原生多模态+Coding SOTA，配合Token Plan的定价，真的能做很多事情。

作者：沃垠AI

来源：沃垠AI

曝GPT-5.5用上“全球最快芯片”，Claude慌了

青瓜传媒 — Tue, 19 May 2026 05:45:09 +0000

120B模型飙到2000 token/秒，CFO更放话已在跑GPT-5.5！Cerebras 560亿美元IPO首日暴涨68%，但SemiAnalysis万字拆解直指死穴。

SemiAnalysis，硅谷最硬核的芯片分析机构，4月份光是AI工具的订阅费就烧到了年化1000万美元。

其中80%花在同一个地方，Anthropic的Opus 4.6 fast模式。

它比标准模式贵6倍，但token输出速度快2.5倍！

然后Opus 4.7来了。更聪明，跑分全面碾压上一代，但工程师集体拒绝升级。

理由只有一个，4.7没有fast模式。

他们宁可用更笨的模型，也要更快的token！

而这个趋势的最大受益者，是一家刚刚以560亿美元估值登陆纳斯达克的芯片公司，Cerebras。

2000 token/秒，怎么来的

OpenAI今年2月甩出了GPT-5.3-Codex-Spark。

名字挂着GPT-5.3的招牌，但底层是一个从完整版GPT-5.3 Codex蒸馏出来的小模型，参数量只有原版的十分之一，120B。

虽然是用智能换来的，但速度确实夸张到离谱——2000 token/秒。

作为对比，Anthropic最快的Opus 4.6 fast大约70-100 token/秒，GPT-5系列在英伟达GPU上是大约130 token/秒。

而Codex-Spark一脚油门踩到了一个数量级开外。

让它跑这么快的，正是Cerebras的WSE-3，一块餐盘大小的晶圆级芯片。

这件事直接引爆了一笔246亿美元的合同，也把Cerebras一路推进了纳斯达克。5月14日首日暴涨68%，2026年至今最大科技IPO。

但Cerebras CFO Bob Komin说，这还只是开胃菜。

IPO前夜，他在采访中亮了一张没人预料到的牌——

我们服务所有模型，对模型大小没有限制。今天，我们正在跑万亿参数的模型。我们正在跑OpenAI内部的GPT-5.4和GPT-5.5。

如果这是真的，Cerebras就不只是一个「小模型快跑」的玩家了，IPO当天的疯狂涨幅立刻站得住脚。

但SemiAnalysis偏偏在同一周甩出了一篇两万字的技术拆解报告，直接把这个故事撕开了一道口子。

Cerebras公开云上，最大的生产模型是GPT-OSS，总参数120B；预览模型最大355B。曾经上过的Llama 70B和405B，后来也被悄悄下了架。

2025年最火，但体量也更大的开源模型（比如DeepSeek），从头到尾就没出现在Cerebras Cloud上。

CFO口中的那个数字，目前只存在于「OpenAI内部」，外界无法验证。

要搞清楚这中间的裂缝有多大，得先看看这块晶圆到底是怎么回事。

一整块硅的赌注

半导体行业干了50年的事情就是切硅片。

一整块晶圆刻出几十颗芯片，切割，封装，各干各的。英伟达的B300已经把单颗芯片撑到了858平方毫米，基本上是光刻的极限了。

相比之下，Cerebras却反其道而行——它不切。

整块晶圆就是一颗芯片。

46,225平方毫米，比英伟达的GPU大58倍，大约一个餐盘的尺寸。上面集成了4万亿个晶体管、90万个计算核心，和44GB的SRAM内存。

重点来了，SRAM。

GPU用的是HBM（高带宽内存），容量大但速度相对慢。一块B300配了288GB的HBM，带宽在TB/秒级别。

WSE-3只有44GB的SRAM，但内存带宽高达21PB/秒。

Cerebras速度碾压的秘密就在这里。

SRAM带宽大到解码时几乎可以把全部计算核心喂饱。GPU的计算核心只能饿着等内存。

而推理的瓶颈，正是解码。

模型一个token一个token往外吐的时候，每吐一个就要把全部权重从内存里读一遍。带宽越高，读得越快，token出得越快。

SemiAnalysis做了一个很直观的对比。

同样只给一个用户生成token的场景下，GPU能实际利用的算力只有理论峰值的零头。WSE-3理论上可以把全部15.6 PFLOPS的FP16算力吃满。

差距不是百分之几十，而是数量级的。

用他们的原话形容，这就像是公交车和F1的区别。

GPU是公交车，一次拉很多人但每个人都慢。WSE-3是F1赛车，一次只拉一个人但飞快。

想用赛车的客户，甚至愿意付6倍价格来买速度。Opus 4.6 fast已经证明了这一点。

但这辆「车」有一个致命问题——它的「油箱」只有44升。

对于小模型来说，WSE-3的44GB SRAM绰绰有余，但放到今天的大模型面前根本不够看。

DeepSeek V4有1.6万亿参数，即使用最激进的压缩方式（FP8量化），光权重就要490GB。一块WSE-3装不下，要切成至少12块塞进12块晶圆。

分布就要通信，而这也是Cerebras最致命的短板。

每块WSE-3对外带宽只有150GB/秒。

英伟达一块Blackwell GPU通过NVLink5能跑到900GB/秒，是Cerebras的6倍。被英伟达收购的Groq更夸张，单颗LPU3就有9.6Tb/秒，8倍。

带宽加不了。这是物理层面的死结。

WSE-3的制造方式决定了一切。整块晶圆用同一套模板反复曝光，12列7行，84个完全相同的die拼成一颗芯片。

想加高速通信端口（SerDes），就得在每个die里都加。但84个die里只有边缘的能接到外面，中间的全是摆设，纯粹浪费硅面积。

更要命的是，SerDes是模拟电路，面积大，还会干扰旁边的数字逻辑。在die中间放SerDes，等于在自家的高速公路上挖坑。

所以Cerebras被困在了一个岛屿上。岛上的高速公路四通八达，但通往外界的桥只有一座单车道。

如此一来，Cerebras跑大模型只剩一条路，把模型按层切开，每块晶圆放几层，晶圆之间只传中间计算结果（比完整的模型权重小得多）。

但流水线越长，延迟越高。

SemiAnalysis算了一笔账，12块晶圆跑DeepSeek V4，光是层间传输的固定延迟就要叠加12次，缓存数据的搬运时间高达数毫秒。

所以CFO在CNBC上说的那番话，至少目前更像是路线图上的故事。

但在120B以下这个区间，Cerebras交出的成绩单没什么好挑的。

代价是什么呢

知名评测机构Artificial Analysis用Llama 4 Maverick做过实测，Cerebras 2400 token/秒，英伟达Blackwell 1040 token/秒，直接碾了一倍多。

AI编程工具Devin背后的Cognition已经把Cerebras接进了产品，快速模式下1000 token/秒。Notion、LiveKit、GSK等也已经在用。

但代价是，公开云跑得动的上限就是GPT-OSS级别，最大上下文只有128K。

根据SemiAnalysis从Claude Code、Cursor等工具中采集的43.2万条真实请求，其中有将近50%都超过了128K。

而Agent时代的上下文只会越来越长，128K很快就是瓶颈。

速度快，但模型小、上下文短、选择少。这就是开发者今天拿到手的Cerebras。

但这里藏着一个很多人还没注意到的细节，足以改变整个竞争格局。

Cerebras与OpenAI的协议里写着一条排他条款，合同期内不得向「特定OpenAI竞争对手」出售产品。

CEO Feldman没有点名，但所有人都知道指的是谁，Anthropic。

12%股权、10亿美元贷款、246亿美元订单锁定。Cerebras已经被牢牢绑在了OpenAI的战车上。

推理战争，OpenAI刚刚换了一把枪

如今，AI军备竞赛的主战场已经变了。

训练只做一次，推理每天做数十亿次。

2026年三分之二的AI算力消耗在推理上，到2027年预计达到80%。

根据OpenAI的计划，AWS的Trainium负责理解用户输入，Cerebras负责生成输出token，GPU负责训练和长上下文，三套硬件各管一段。这套组合拳只为一件事，成本打下来，速度拉上去。

对比之下，Opus 4.6 fast的速度已经从100 token/秒退化到了70 token/秒，Cerebras也在合同里把它锁在了门外。

那么问题来了，Anthropic的极速推理方案在哪里？

作者：ASI启示录

来源：新智元

Gemini 3.5 Pro全网首曝，编程追平GPT-5.5

青瓜传媒 — Tue, 19 May 2026 01:10:49 +0000

就在刚刚，Gemini 3.5提前曝光了！

网友Lentils放出最新消息，代号「Cappuccino」的Gemini 3.5 Pro检查点已经开始产出。

而就在几个小时前，传闻还是Gemini 3.2，没想到一下子就替换成了Gemini 3.5。

从3.2到3.5的跳级命名，谷歌显然想在I/O上讲一个更大的故事。

Gemini大更新，谷歌祭出杀招

前一天，知名爆料人can率先晒出了首批输出。

一个是DualShock 4手柄的交互式蓝图拆解，另一个是鹈鹕骑自行车的矢量插画，自带7维定制面板，车架颜色、光照、头饰、篮筐内容、蹬车速度全部实时切换。

从截图来看，这已经不是简单的SVG了，而是一个prompt生成的完整交互式Web应用！

Abacus.AI CEO Bindu Reddy随后放出的数据更炸——

3.2 Flash在编码和推理上达到GPT-5.5的92%，成本却便宜15到20倍。

不仅如此，谷歌全新的全时Agent「Gemini Spark」也被扒了出来。

可以看到，它不仅能全天候待命，帮你管邮件、跑任务，甚至可能不问你就替你下单。

然而就在此时，Alex Heath的独家爆料，却狠狠地泼了一盆冷水——

新款Gemini的性能，最多只能追平OpenAI的GPT-5.5……

一个prompt四个方案，Gemini「懒癌」治好了

先看好消息。

以前Gemini生成SVG，社区最常用的吐槽就一个字，「懒」。给一个prompt，出一个敷衍结果。

但这次不一样了。

网友Lentils只用了一个简单提示，Gemini就直接出了4个风格各异、细节拉满的Robot SVG。

同期泄露的3.5 Flash也印证了这个趋势。

LM Arena的匿名跑分显示，Flash在SVG生成、交互式3D编码和动画处理上已经超过了3.1 Pro。

换句话说，谷歌的蒸馏加稀疏化技术正在收获回报，把前沿模型压成了轻量版，质量断崖却没出现。

帮你管邮件、替你花钱，谷歌Agent胆子够大

同一天的另一个重磅泄露是「Gemini Spark BETA」。

根据爆料，Spark的定位是「你的日常AI智能体，全天候待命」。

一个24小时全时运转的AI Agent，帮你处理收件箱、执行在线任务、管理多步骤工作流。

Spark的数据来源清单让人倒吸一口气。

已连接的Google应用、技能模块、聊天记录、定时任务、你登录的网站、Personal Intelligence、位置信息。

Gemini会把你的姓名、联系方式、文件、偏好等信息分享给第三方来完成任务。

此外，为了保持会话连续性，系统还会保存远程浏览器数据，包括登录凭证和远程代码执行数据。

不过值得注意的是，Spark虽然设计上会在敏感操作前征求许可，但它「可能在未经询问的情况下分享你的信息或完成购买」。

也就是说，它可能不问你就下单，也可能不问你就把信息分享出去。

Spark的前身是谷歌内部代号「Remy」的Agent升级版，此前只面向AI Ultra订阅用户。

从Remy到Spark，Gemini的Agent从「一个功能」一步升格为「24/7的数字生活管家」。

这正面对标Anthropic即将发布的托管Agent Conway，以及OpenAI已经上线的24/7 Agent平台。

半年前的榜首，半年后摸不到前沿的边

好消息到此结束。

根据Alex Heath从多个信源处得到的确认，下周二发布的新Gemini，大致落在GPT-5.5这个档位，距离Mythos还有明显差距。

想当初，刚发布的Gemini 3凭借着LMArena 1501 Elo，几乎扫了所有主流排行榜第一。

半年过去，GPT-5.5、Opus 4.7、Mythos相继发布后，格局已经被彻底改写。

英国AI安全研究所的评测显示，Mythos是第一个同时通过其两套网络安全测试范围的模型，GPT-5.5只通过了一套。

AISI甚至承认，评测框架已经快跟不上Mythos的能力了。

回到谷歌这边，根据网友Fandu扒到的模型选择器的最新界面，新款Gemini很可能原生支持MCP第三方工具接入，Thinking模式也将全面重构。

可以看到，除了3.1 Flash-Lite、3 Flash、3.1 Pro这几个大家熟知的模型外，还多了一个从未见过的分类「MCP Tool Testing」，也就是「可用于MCP工具测试的模型」。

思维模式也从原来的独立Thinking模式，变成了全局开关，分Standard（适合大多数问题）和Extended（求解复杂问题）两档。

编程，最让DeepMind焦虑的战场

Heath的爆料中，编程部分的措辞最重。

他说，DeepMind内部正面临着切实的压力，尤其是在编程能力方面需要迎头赶上。

追赶目标很明确，Anthropic。过去一年，Claude在开发者群体中坐稳了默认选项。

新Gemini会包含编程改进，但在Heath的信源里，没有一个人认为会带来质变。

谷歌的AI编程平台Antigravity，内部用得很多，但在外部市场一直没能突围。

4个月6%的开发者采用率，对一个IDE来说不算慢，但跟Claude Code和Codex的势头比差距明显。

问题出在哪？

XDA的一篇月度评测试了三个工具做同一个任务。

Claude Code第一次就准确理解了复杂创意提示。而Antigravity的输出却像是用「微软画图」做出来的涂鸦。

此外，Antigravity的定价策略也让开发者头疼。

谷歌已经多次调整定价模型，从免费预览到信用点制度，社区论坛上关于额度用完没提醒的抱怨一直没断过。

但最为关键的在于，如今AI编程已经彻底出圈了。

不管Claude Cowork，还是OpenAI的Codex，都能让不会写代码的人用得飞起——

产品经理用自然语言描述需求，直接得到可运行的原型。设计师把Figma稿丢进去，拿到前端代码。

然而到目前为止，谷歌都没有任何产品能够进入这个对话。

不过，知名大佬Haider的评论倒是提供了另一个视角。

谷歌可能并不打算通过跟别人跑同一条赛道来取胜，他们更大的重心在于打造一个更强大的多模态系统，而这需要时间。

通往ASI的飞轮，三家同时踩油门

虽然模型追不上，但谷歌有10亿级分发入口和全时Agent。

Spark一旦铺开，用户的邮件、日程、购物、浏览数据将反哺Gemini的下一代训练。

这是OpenAI和Anthropic都很难复制的打法。

但竞争对手没有闲着。

就在昨天，OpenAI给Codex追加ultrafast模式，速度提升2-3倍，还祭出补贴战，30天内切换的企业2个月免费。3小时内2000名开发者响应。

Anthropic同步放出Opus 4.7 Fast模式，Claude Code额度提升50%。

这场补贴战表面上是抢开发者，底层逻辑比这深得多。

GPT-5.6的开发几乎可以确定是在GPT-5.5的深度参与下进行的。 AI写的代码反哺AI的训练，谁掌握了编程工具的用户，谁就掌握了这个循环的加速器。

三家在三条赛道上同时踩油门。

OpenAI靠迭代速度碾压，三周一个新版本。Anthropic靠模型质量封神，Mythos重新定义了前沿。谷歌靠分发和Agent包抄，把AI塞进10亿人的手机里。

没有人在减速。通往ASI的飞轮，已经开始自转了。

而对于每天都在用这些工具的人来说，这场三巨头的军备竞赛，可能是2026年最划算的一件事。

补贴在加码，额度在提升，模型在变强，价格在下降。

唯一的问题是，你的工作流押对了赛道吗？

编辑：好困

来源：新智元

GPT-5.5发布：OpenAI的”超级应用”野心

青瓜传媒 — Mon, 27 Apr 2026 03:10:59 +0000

当OpenAI用GPT-5.5描绘’超级应用’蓝图时，我们看到的究竟是未来工作方式的革命，还是资本市场的新故事？从编程工具到AI浏览器，这场强行整合背后隐藏着用户重叠度不足、平台锁定风险和数据主权危机。本文深度剖析GPT-5.5的技术突破与战略困境，带你穿透基准测试的迷雾，看清AI巨头们正在上演的这场’既做选手又做裁判’的危险游戏。

一个问题先抛出来

如果你现在问一个普通互联网用户：“你知道OpenAI最近发了新模型GPT-5.5吗？”

大概率得到的回答是：”哦，发了啊。”然后该刷抖音刷抖音，该开会开会。

但如果你换一种问法：“如果有一天，你的编程工具、写代码的IDE、每天浏览网页的浏览器，以及和一个无所不知的AI聊天框，全部被整合到一款叫OpenAI的’超级应用’里，你觉得自己的生活会变好吗？”

这个问题，大概会让一部分人陷入沉默。

2026年4月24日，OpenAI正式发布GPT-5.5，官方措辞依然是那套熟悉的配方——“迄今最智能、最直观易用的模型”。联合创始人Greg Brockman在发布会上说，这是”打造超级应用的一大步”。

比起模型参数的更新，这个”超级应用”的叙事，才是真正值得深究的东西。

01 “超级应用”不是新概念，OpenAI这次画的饼有什么不同？

“超级应用”这个词，在中国互联网语境里早就被说烂了。微信是超级应用，支付宝是超级应用，抖音某种程度上也是超级应用。它的标准定义是：一款集成多种功能于一身、能够满足用户日常生活大部分需求的移动应用。

现在OpenAI跳出来说，我也要做超级应用。

但OpenAI版本的”超级应用”，和微信、支付宝那套玩法有一个本质区别：后者解决的是人的生活需求，而OpenAI想解决的是人的工作需求。

布罗克曼描述的”超级应用”蓝图中，ChatGPT、Codex（编程工具）和AI浏览器将被打包成一款统一服务。想象一下：你早上打开这个应用，AI帮你写邮件；中午让它帮你debug代码；下午让它自动抓取竞品数据、分析报表——全部在一个界面里完成，不用切换任何工具。

这个画面听起来很美好。但美好和现实之间，往往隔着一整个太平洋。

我的第一个质疑是：这三件事，真的应该被捏在一起吗？

ChatGPT的核心使用场景是自然语言对话，用户期待的是快速获取答案或者完成碎片化的文字任务。Codex的用户是专业开发者，他们需要的是精确的代码生成、上下文理解和工程级的能力输出。AI浏览器则针对的是自动化任务执行——模拟人类操作网页、填写表单、批量处理信息。

这三类用户的重叠度，远没有OpenAI想象的那么高。一个每天用ChatGPT聊天的人，大概率不写代码；一个专业开发者，更可能直接用VS Code加插件，而不会在一个通用AI界面里做工程开发。

强行整合的结果，可能不是”瑞士军刀”，而是”四不像”。

第二个质疑：OpenAI做超级应用，是主动出击，还是被迫防守？

我们把时间线拉回到2026年初。Anthropic的收入已经做到约300亿美元，主要靠编程工具Claude Code打开企业市场。Google的Gemini 3.1在多模态能力和企业本地部署上建立了差异化优势。Meta开源了LLaMA系列，继续在开发者生态上蚕食OpenAI的市场。

而OpenAI呢？ChatGPT的增长趋于平稳，API调用量的增速在放缓，Sam Altman四处奔走融资，估值压力一年比一年大。

在这种情况下，”超级应用”的故事，对资本市场有多重要，不言而喻。一个产品公司讲不出新故事，就要讲平台故事；平台故事讲不圆，就讲生态故事。OpenAI现在做的，不过是互联网公司讲故事的经典套路。

但我没有说”超级应用”一定做不成。 这里面有一个合理的逻辑：随着AI能力越来越强，用户其实也在期待一个”一站式AI工作台”。当你每天要在五六个AI工具之间来回切换的时候，你自然而然会想要一个统一的入口。OpenAI看到了这个需求，这是对的。问题在于，它有没有能力整合好，以及整合好了之后，用户是否真的买账。

02 GPT-5.5到底强不强？别被基准测试的数字骗了

说完了故事，再来看看硬货。

OpenAI给出的数据显示，GPT-5.5在一系列基准测试中，优于Google的Gemini 3.1 Pro和Anthropic的Claude Opus 4.5。速度更快，思维更敏捷，消耗的token更少。

首席科学家Jakub Pachocki在发布会上说了一句很狂的话：“过去两年的发展速度，出乎意料地慢。”

我欣赏这种自信，但我更关心的是：这些数据，对普通用户意味着什么？

首先，基准测试永远只是基准测试。

AI行业的基准测试，已经被玩成了”考驾照”——厂商针对考试内容反复训练，然后在公开测试上刷出高分，但实际开车上路的表现，可能和考试成绩完全不符。Math benchmarks、编程 benchmarks、MMLU，这些测试覆盖的场景，只是AI真实使用场景的一小部分。

更关键的是：GPT-5.5比GPT-4.5强，这一点毫无疑问。但它比Claude Opus 4.5强多少？这个”强”，在你的日常使用中能感知到吗？

对绝大多数用户来说，GPT-4.5已经足够好了。Claude Opus 4.5也足够好了。它们之间的差距，在实际工作场景里，可能就是”这个回答让我满意”和”这个回答让我非常满意”的区别——但这两者之间，用户真的会在意吗？

其次，token效率的提升，是一个被严重低估的进步。

布罗克曼说GPT-5.5″使用的token更少”，这句话我反而觉得是整场发布会里最有价值的信息。

Token是什么？简单说，token是大模型处理信息的计量单位。每次你发一段文字给AI，AI回复一段文字，都是在消耗token。而token的消耗，直接关系到企业的成本。

OpenAI API的定价虽然一直在降，但对日均调用量上万次的企业来说，token成本依然是不可忽视的支出。如果GPT-5.5能在保持同等输出质量的前提下，减少20%~30%的token消耗，这对企业用户来说，是实实在在的省钱。

换句话说，GPT-5.5最大的受益者，可能不是个人用户，而是那些日均调用量巨大的企业客户。

第三，科学研究和药物研发，这个方向我举双手赞成。

马克·陈特别提到，GPT-5.5在”科学和技术研究工作流程方面展现出显著优势”，并且能够”帮助专家科学家取得进展”，特别提到了药物研发。

这是整个发布会里，唯一让我真正兴奋的点。

为什么？因为药物研发是一个周期极长、成本极高、失败率极高的领域。一款新药从研发到上市，往往需要十年时间和数十亿美元的投入。如果AI能够在分子模拟、靶点发现、临床试验设计等环节提供实质性帮助，哪怕只是缩短5%的研发周期，都是医学史上的重大进步。

AI在聊天、写文案、做PPT上的应用，是锦上添花；AI在药物研发、疾病诊断、材料科学上的突破，才是真正改变人类进程的变革。

OpenAI如果真的能把GPT-5.5的能力，落地到这些垂直领域，那”超级应用”的故事，反而没那么重要了。做一款专业的科学AI工具，比做一款什么都做的”超级应用”，更有价值，也更可持续。

03 神仙打架：OpenAI vs Anthropic，竞争正在走向白热化

GPT-5.5发布同一天，Anthropic也没闲着。

先是一条坏消息：Anthropic近期面临产品性能下降的质疑。有用户反映Claude Opus 4.6的性能出现退化，新版本Opus 4.7虽然基准测试分数更高，但成本上涨、稳定性下降、表现不一致，用户的评价严重分化。

紧接着是一条好消息：Anthropic宣布与国际律师事务所富而德（Freshfields）达成合作，联合开发法律AI工具。富而德将获得Anthropic未来模型和产品的优先访问权，这是Anthropic自称”迄今为止最重要的律所合作项目”。

再加上此前Anthropic旗下高风险模型Mythos因”未经授权访问”引发安全争议、Claude Code功能从Pro订阅中移除引发用户不满——Anthropic正在经历”高增长与运营压力并存”的典型阶段。

但我必须说一句公道话：Anthropic面临的这些问题，本质上是一个快速成长的公司，在Scaling过程中必然会遇到的结构性挑战。

300亿美元年收入，放在任何行业都是一个惊人的数字。Anthropic的问题不是它不行了，而是它跑得太快，管理、架构、产品都在超负荷运转。这和一个人连轴转了三天三夜之后效率下降，是一个道理。

相比之下，OpenAI的问题更隐蔽，也更危险。

OpenAI现在面临的最大挑战，不是技术，而是商业模式的天花板越来越近。ChatGPT的月活增长趋于平稳，API调用量的价格战越打越凶，Anthropic和Google在编程工具市场不断攻城略地——OpenAI的护城河，并没有它自己描述的那么宽。

这也是为什么”超级应用”的叙事对它如此重要。一旦OpenAI成为一个平台型的超级入口，它就能从”卖模型”升级为”卖生态”，估值逻辑就完全不同了。

但Anthropic显然不会让OpenAI如愿。就在OpenAI发布GPT-5.5的同一天，Anthropic联手富而德，在法律AI这个高价值垂直领域布下了一颗棋子。法律服务的客单价高、付费意愿强、场景足够复杂——这是AI落地最好的试验田之一。

我个人的判断：在AI领域，“垂直深耕”的价值，正在悄悄超过”全面覆盖”。

OpenAI做超级应用，是广度路线；Anthropic做法律AI，是深度路线。谁能走得更远，现在下结论为时过早，但至少在短期内，法律、医疗、金融这些高价值领域的AI落地，会成为决定胜负的关键变量。

04 当”超级应用”成为现实：用户真正该担心什么？

我们假设一个最乐观的场景：OpenAI的超级应用做成了，ChatGPT、Codex、AI浏览器真的被整合成了一款统一产品，用户体验流畅，效率大幅提升。

然后呢？

第一个问题：数据主权。

当你的工作流全部在一个应用里完成，你的每一次对话、每一行代码、每一个浏览操作，都在OpenAI的服务器上积累。你写的代码，你分析的竞品数据，你和企业客户的沟通内容——理论上都是OpenAI可以获取的数据。

2025年，Anthropic就曾因为一次软件更新，意外暴露了内部Claude Code文件，让外界窥见了其核心产品结构。这还只是误操作。如果OpenAI有意从用户数据中提取价值，用户能察觉吗？能阻止吗？

数据主权这个问题，在AI时代会比互联网时代更加尖锐，因为AI模型的训练和优化，本身就需要海量数据。当一款超级应用成为你工作流的唯一入口，你其实也在成为它训练数据的一部分。

第二个问题：平台锁定。

一旦你的工作流程深度依赖OpenAI的超级应用，切换成本会高到令人窒息。你的代码习惯、对话模板、自动化工作流——全部针对OpenAI的接口做了优化。换到Anthropic？从头学起。换到Google？API不兼容。三年积累的工作习惯，说扔就扔？

这和当年企业深度依赖SAP、Oracle的逻辑一样。不是因为它们最好，而是因为切换成本太高。平台锁定一旦形成，用户就不再是客户，而是资产。

第三个问题：竞争的最后受益者是谁？

我们说了很多OpenAI和Anthropic的竞争，但有没有一种可能：这场竞争的最终受益者，既不是OpenAI，也不是Anthropic，而是那些在AI浪潮中闷声发大财的”卖水人”——英伟达、AMD、微软Azure、AWS……

做大模型的公司打生打死，底层算力供应商稳坐钓鱼台。无论谁赢谁输，算力的需求只会越来越大。这才是AI时代最确定的赢家。

而对于普通用户和开发者而言，在这场巨头博弈中保持清醒，知道自己的核心竞争力在哪里，知道不该把鸡蛋放在哪个篮子里，比追着发布会赶时髦要有用的多。

05 写在最后：技术进步是真实的，但故事也是该警惕的

GPT-5.5发布，这是真实的进步。更强的推理能力，更高的token效率，更广的落地场景——这些都值得肯定。

但”超级应用”的叙事，需要打一个大大的问号。

OpenAI真正应该做的，不是让用户在一个应用里完成所有事情，而是让AI无缝嵌入用户已经在做的所有事情。

最好的工具，是用户感受不到工具存在的工具。当有一天你发现自己工作的时候，已经离不开OpenAI——不是因为它是一个超级应用，而是因为它就像电一样，融入了你生活和工作的每一个角落——那才是OpenAI真正成功的标志。

而不是反过来，用一个界面把所有功能堆在一起，然后告诉用户：“看，这就是未来。”

未来不是这样的。未来应该是分散的、去中心化的、让用户有选择权的。OpenAI想成为AI时代的iOS，但别忘了，这个星球上还有很多人更喜欢开源的Android。

最后送一句话给OpenAI，也送给所有AI从业者：真正的护城河，不是用户离不开你，而是你创造的价值，值得用户选择你。

作者：AI驯化师的好奇心

GPT-5.5 发布：版本号正在失去意义

青瓜传媒 — Fri, 24 Apr 2026 05:46:37 +0000

OpenAI 发布 GPT-5.5，代号 Spud。距离上一代 5.4 只隔六七周；再往前数，5.3 到 5.4 只隔两天。

如果你还习惯用“发布会—代际跃迁—用户升级”这个框架看模型更新，现在恐怕要变了。GPT-5.5 本身并不是这条新闻里最值得关注的部分——它比 5.4 聪明一点、token 消耗少一点，在 Terminal-Bench 2.0 上以 82.7% 拿下 SOTA（Claude Opus 4.7 是 69.4%，Gemini 3.1 Pro 68.5%）。

值得关注的，是“发布”这件事本身已经不再是 AI 公司的产品节奏。

一、版本号正在失去意义

六周发一次，偶尔两天发一次。再过几个月，版本号会变成 5.7、5.8。那个时候再问“5.8 和 5.7 差在哪”，答案会越来越像“Chrome 137 和 136 有什么区别”。

过去 GPT-3.5 到 GPT-4，GPT 4o和GPT-5都是一次叙事事件，现在 5.4 到 5.5 只是一次部署。模型不再是一件事，而是一条水管。

对做内容、做工具、做工作流的人来说，这件事的含义是具体的：“选模型”这个问题正在失效。

比如文档翻译工作流——格式处理、术语库/记忆库/风格指南的处理、怎么和译者交互、质检流程——这些东西的价值，随着模型同质化，反而在升高。

铁打的工作流，流水的模型，特别是当模型发布节奏从年变成周的年代里。

二、提示词工程正在消亡

今天的官方blog里，有一句话值得注意的话：

“你不必小心翼翼地管理每一步，可以直接把一个杂乱的、多步骤的任务交给 GPT-5.5，信任它去规划、使用工具、自我校验、在模糊中继续前行。”

这是 OpenAI 第一次在发布文里如此明确地把“prompt engineering”这个词扔掉。取而代之的是一个更朴素的词：信任（trust it to plan）。

(去官网看视频，这只是一个截图，lol）

这件事对两类人是好消息，对一类人是坏消息。

好消息给产品经理型的 AI 用户：拆分需求，拆分任务，验收标准——这些都是产品经理的基本功。

好消息也给项目经理类的的语言工作者：翻译领域“译前准备—分派—质检—交付”的流程思维，和 agentic AI 的工作方式天然契合。LanguageX和SmartCAT之类的TMS，本质上就是把“如何把一个翻译任务切给多个模型和语言专家，并最后汇总成品”这件事工程化。

坏消息给给长篇大论提示词的人——prompt 这个界面正在下沉，成为一个系统内部细节。未来的界面是任务描述、是项目文件夹、是IM消息、是会议纪要，模型会自己去 prompt 自己。

这也是为什么我最近发起草诀歌 AI Labs。

如果 AI 的核心界面正在从 prompt 变成任务委任，那么最重要的问题就不再是“谁更会写提示词”，而是“谁更知道自己想做什么”。

三十年河西，非技术背景的人，反而可能在这一轮里获得优势：有真实问题、有审美、有领域经验，只是过去缺少把想法变成产品的工程能力。

三、LLM本身似乎到了一个瓶颈期

GPT-5.5 这次发布，最反常的一点是 OpenAI 不卖“更聪明”。它卖的是——per-token latency 和 5.4 持平，同等任务少用 token，成本是竞争对手前沿编码模型的一半。

LLM似乎在推理跃升之后，又到了一个瓶颈期。上周 Anthropic 的 Opus 4.7 同样没放出颠覆性能力，Gemini 3.1 Pro 也在效率维度做文章，三家前沿厂商同时降速做工程。

聪明到一定程度后，边际收益在递减。大家比的不是“我模型多强”，而是“我跑一个成功任务要花多少钱”。

GPT-5.5 没有颠覆任何事。它只是把三条本来就在进行的曲线，推到了一个肉眼可见的拐点上——发布变成了部署，提问变成了委任，智能变成了单价。

哦对了，GPT-5.5 也不会再像 5.4 那样，“稳稳地接住你”了。

作者：David Lee

来源：David的AI全景图