GPT-5.5 – 青瓜传媒 //www.f-o-p.com 全球数字营销运营推广学习平台! Tue, 09 Jun 2026 06:08:27 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico GPT-5.5 – 青瓜传媒 //www.f-o-p.com 32 32 Opus 4.8、GPT-5.5、DeepSeek V4、MiniMax M3测评 //www.f-o-p.com/382275.html Wed, 10 Jun 2026 00:45:19 +0000 //www.f-o-p.com/?p=382275

 

最近,模型圈的节奏又加快了。Opus 4.8GPT-5.5、Qwen3.7-Plus、MiniMax M3,四款重量级模型几乎同时登场,想认真跟一遍都很难。

昨天,我注意到一个榜单叫「Browse Code」,专门测LLM在真实浏览器环境里完成编程和网页自动化任务的成功率。

没想到,MiniMax M3在这个榜上从M2.7时期的倒数第二直接冲到了全球第五,和Claude 4.6 Sonnet、Gemini 3.5 Flash并排。

当然,一个榜单说明不了全部问题。所以我花了356元,把Claude Opus 4.8、GPT-5.5、DeepSeek-V4-Pro和MiniMax M3这四个模型拉到一起,用同一套任务、同一条提示词、同一个评分标准,全部接API走Claude Code/Codex测了一遍。

覆盖了3D编程、视觉编程、游戏开发、Agent长程任务四大场景,横评结果如下。

01 一手横评

本次测评的原则是:变量归一,对比才有意义。

四个模型用同一份视觉素材、同一条提示词,分别接各家API在Claude Code / Codex里跑,最终从任务完成度和输出质量两个维度来评价,场景覆盖3D编程、视觉编程(网站开发)、游戏开发和Agent长程任务(Office三件套 + Coding)。

1)3D任务

先给模型看一张金门大桥的实景照片,然后让它根据桥体外观,用Three.js写一个3D交互网页。

这个任务的考验是三维的:第一,模型要有视觉理解能力,能从图片里提取出关键的结构特征;第二,要能把这些特征准确映射到三维空间的几何关系上;第三,Three.js代码质量要过关,别写出跑起来就崩的东西。

三项能力任缺一项,结果都会差很多。提示词:参考“金门大桥.jpeg”的外观构造,帮我开发一个旧金山的金门大桥的3D交互网页,要求如下:- 使用 Three.js,全部用程序化几何体生成,不加载外部3D模型。- 桥体主色为国际橙色(#C47832),塔柱为Art Deco风格,桥体结构高度还原“金门大桥.png”的倒弧形外观结构。- 准确还原金门大桥标志性的国际橙色桥塔、双塔悬索结构,包含主缆、吊索、桥面和车道分隔线。- 环境包括:深蓝色波浪海水、天空渐变雾效,远处绿色山丘和城市群。- 动态:海水浮动、云影移动、支持鼠标拖拽旋转/缩放。- 性能:全屏自适应,使用Three.jsr128,输出一个可直接运行的HTML文件。- 支持鼠标拖拽旋转、缩放、平移,初始视角从西南方向俯瞰大桥。

Claude Opus 4.8:

GPT-5.5:

DeepSeek-V4-Pro:

MiniMax M3:

这个Case里,毋庸置疑表现最好的是Claude Opus 4.8,MiniMax M3紧随其后。

这两个模型都准确还原了金门大桥最标志性的一个物理细节:主缆从两侧塔顶向跨中垂下来的倒弧形外观。这说明它们不只是在描述一座桥,而是真正理解了悬索桥的结构原理,并能把这个理解翻译成三维几何。

GPT-5.5和DeepSeek-V4-Pro则没有还原出这个特征,输出的桥体五花八门。

尤其是GPT-5.5,它的编程审美怎么描述呢,有种浓眉大眼的感觉,就很粗糙。后面几个Case,它的这个特征会一直持续。Claude和M3的视觉语言则完全相反,一看就很精致、高级,有明确的设计意识。

另外值得一提的是,DeepSeek的海洋流体动效设计得挺有意思,但天空出现了穿模问题,说明三维空间的碰撞逻辑还是处理得不够扎实。

这轮实测:Claude Opus 4.8 > MiniMax M3 > GPT-5.5 > DeepSeek-V4-Pro。

2)视觉编程(网站开发)

前几天给大家分享了“冷同学的院子”这个民宿概念,这次顺手让模型给它开发一个官网。

我的提示词故意没有给出具体的设计指令,只丢了民宿信息和素材包,让模型自己做判断——哪些素材该用、怎么排版、用什么设计语言。

这其实是在测两件事:一是视觉理解能力,模型能不能“看懂”图片、视频素材的内容和质量;二是设计决策能力,能不能根据品牌调性做出合理的创作取舍。提示词:

给这家民宿设计一个官方网站。
民宿的基本信息:
– 民宿名称:冷同学的院子
– Slogan:云朵上的院子,冷同学的家
– 地理位置:四川汶川(羌族文化核心区、高山峡谷地带)
– 品牌调性关键词:温暖治愈
· 在地羌韵
· 自然松弛
· 外冷内热
· 有故事感
– 目标客群:追求慢生活的年轻人、亲子家庭、文化旅行者、成都周末度假客、川西旅游爱好者文件夹
【民宿资料包】
放着很多民宿的素材,有logo、门店、房间、周边和宣传视频,你自己决定用哪些素材(不是所有素材都用上)。我只需要最终交付的网站顶级审美,让人看了就想马上去玩。

Claude Opus 4.8:

GPT-5.5:

DeepSeek-V4-Pro:

MiniMax M3:

这轮表现最好的是MiniMax M3。它确实“看懂”了我的素材和需求,一上来先给我梳理了开发计划。

然后定义出设计语言:大面积米白留白加克制几何为”冷”,羌红/赭金/暖木色为”热”,再把这两套视觉语言融在一起,做成”外冷内热”的调性表达。审美参考了了Aman侘寂、松赞在地文化和虹夕诺雅的克制感。

这就是视觉理解能力和设计品位带来的差距。只靠读文字提示词,是做不到这个程度的。

房型展示那一屏,M3用了左右交错的错位布局来呈现房型和价格,节奏感很好,看完真的有预订的冲动。

Opus 4.8也不赖,几处书法字体的运用尤其喜欢,素材选用也很克制,没有全部堆进去。

GPT-5.5继续它“浓眉大眼”的直男审美:大标题、方方正正的排版,完全没有灵活性,是真的很丑。

DeepSeek-V4-Pro的审美比GPT-5.5耐看一点,但它缺乏视觉理解能力,所以根本不知道哪些图该用、用在哪里,索性把所有素材全堆进去,结果图文错乱,部分页面文不对题。这是能力上的硬限制,不是调整提示词能解决的问题。

这轮测试:MiniMax M3 > Claude Opus 4.8 > GPT-5.5 > DeepSeek-V4-Pro。

3)游戏开发

不知道大家在手机上玩过“抓大鹅”没?你可能没玩过,但你的另一半一定玩过。

这次我先跟AI沟通设计了一份PRD,再让模型根据PRD开发一款web端的抓大鹅游戏。

这个任务的考验点在于:模型能不能完整、准确地读懂设计文档里的功能描述,并把每一条需求准确地转化成可运行的代码,同时把游戏体验和视觉完成度都顾到。提示词:

请按PRD“大鹅.png”的要求,帮我创建一个网页版《抓大鹅》3D堆叠消除游戏。
要求:
1、6种不同颜色/形状的物品,共36个,随机堆叠在3D空间中。
2、鼠标点击物品后消失,图标进入底部7格暂存栏。
3、暂存栏出现3个相同物品时自动消除。
4、暂存栏满7个不同物品时失败,场上物品清空时胜利。
5、提供洗牌、移除、回退三个道具按钮,各3次使用次数。
6、支持鼠标拖拽旋转视角和滚轮缩放。
7、支持localStorage保存进度和复活功能。
8、输出一个完整的html文件,可直接在浏览器运行。

Claude Opus 4.8:

GPT-5.5:

DeepSeek-V4-Pro:

MiniMax M3:

四个模型都把游戏开发出来了,核心功能都对,说明面对有明确PRD的开发任务,主流模型基本都能过关了。

有意义的差异集中在两点:一是前端审美,Claude依旧最耐看,DeepSeek和M3也还行,GPT-5.5最丑;二是细节完成度,PRD里有一项要求是“通关后奖励一只大鹅”,只有M3做到了,其他三个模型都漏掉了这个细节。

这轮测试:Claude Opus 4.8 ≈ MiniMax M3 > DeepSeek-V4-Pro > GPT-5.5。

4)Agent长程任务

最后一个Case也是最复杂的:我们让各个模型用Claude Code / Codex做一个联网搜索 + word/PDF生成 + skill调用 + 网站开发的复杂长程任务。提示词:

联网搜索电影《火遮眼》的关键信息内容,尽量从权威信源获取内容。先给我创建一份2000字的word调研报告(含pdf版)。然后调用guizang-ppt skill生成一份12页的PPT,宣传一下这部电影。

Claude Opus 4.8:

GPT-5.5:

DeepSeek-V4-Pro:

MiniMax M3:

这个任务的难点在于“长”——不只是单步执行,而是要求模型在跨越多个工具调用节点的情况下,始终保持上下文连贯、指令不漂移。这对模型的长程稳定性和工具协调能力要求很高。

先说PPT的完成度:GPT-5.5、Opus 4.8和M3都交付了质量不错的PPT,Claude每页带微动画,GPT-5.5有真实配图(应该是Codex的原因),M3的色彩搭配比较好看。DeepSeek-V4-Pro在这一项差了明显一截,排版、配色和交互都不在同一个水平线上。

调研报告的内容质量:Opus 4.8、M3和GPT-5.5不相上下,DeepSeek-V4-Pro垫底。

关于DeepSeek-V4-Pro有一个独立的问题值得单说:它在Claude Code里跑得极慢,而且频繁中途停摆不再继续输出。这个PPT任务它跑了整整36分钟,期间多次卡顿。

大概率是DeepSeek并未针对Claude Code做更多适配导致的,属于工程层面的问题,而不只是模型能力本身的问题。但从用户体验角度来说,这个差异是实实在在存在的。

这轮测试:GPT-5.5 ≈ Claude Opus 4.8 ≈ MiniMax M3 > DeepSeek-V4-Pro。

02 实测总结

四轮任务跑下来,先看综合能力,再看成本。

能力上,Claude Opus 4.8是这次横评里综合实力最强的,稳如预期。

M3是最大的惊喜,整体水平大约在Opus 4.7和4.8之间,与Opus 4.8的差距比我预想的要小。

GPT-5.5表现不稳定,有时候在线,有时候掉链子,前端审美上的短板在编程场景里是一个贯穿始终的减分项。

DeepSeek-V4-Pro整体能力不如其他三家,Agent长程任务的稳定性和代码生成质量都有差距。

成本这块,本期测评费用明细:

Claude Opus 4.8,接API测的,50美刀;

GPT-5.5,在Codex里用的,大约2美刀;

MiniMax M3,我订的Token Plan极速版,每月有12亿额度的M3 Token,这期用了约2000万token,折下来大约2 块钱;

DeepSeek-V4-Pro,大量输入命中缓存,不到2元。

换算下来总计356元,而两款国产模型加起来不到总费用的零头。性价比这件事,真的越来越不好意思讨论了。

03 写在最后

模型到底行不行,很多时候只有真实用过才知道,benchmark数字只是参考,不是结论。

至少从这几轮Coding任务来看,Claude Opus 4.8的前沿地位还是稳的。MiniMax M3也不差,大概是Opus 4.7的水准,很接近Opus 4.8了。

GPT-5.5可能在办公类任务上更有优势,但Coding层面的审美问题不是小问题,对于编程场景来说是一个明显的硬伤,而且这个问题不是靠调提示词就能解决的。

DeepSeek-V4-Pro性价比依然很高,但这次测评也暴露了它在Agent适配、长程稳定性和代码生成质量上与另外三家的真实差距。差距不是追不上,但需要时间。

说实话,这轮测下来最让我兴奋的是前几天发布的M3。我没想到它能这么接近Opus 4.8。1M上下文+原生多模态+Coding SOTA,配合Token Plan的定价,真的能做很多事情。

作者:沃垠AI

来源:沃垠AI

]]>
曝GPT-5.5用上“全球最快芯片”,Claude慌了 //www.f-o-p.com/381563.html Tue, 19 May 2026 05:45:09 +0000 //www.f-o-p.com/?p=381563

 

120B模型飙到2000 token/秒,CFO更放话已在跑GPT-5.5!Cerebras 560亿美元IPO首日暴涨68%,但SemiAnalysis万字拆解直指死穴。

SemiAnalysis,硅谷最硬核的芯片分析机构,4月份光是AI工具的订阅费就烧到了年化1000万美元。

其中80%花在同一个地方,Anthropic的Opus 4.6 fast模式。

它比标准模式贵6倍,但token输出速度快2.5倍!

然后Opus 4.7来了。更聪明,跑分全面碾压上一代,但工程师集体拒绝升级。

理由只有一个,4.7没有fast模式。

他们宁可用更笨的模型,也要更快的token!

而这个趋势的最大受益者,是一家刚刚以560亿美元估值登陆纳斯达克的芯片公司,Cerebras。

2000 token/秒,怎么来的

OpenAI今年2月甩出了GPT-5.3-Codex-Spark。

名字挂着GPT-5.3的招牌,但底层是一个从完整版GPT-5.3 Codex蒸馏出来的小模型,参数量只有原版的十分之一,120B。

虽然是用智能换来的,但速度确实夸张到离谱——2000 token/秒。

作为对比,Anthropic最快的Opus 4.6 fast大约70-100 token/秒,GPT-5系列在英伟达GPU上是大约130 token/秒。

而Codex-Spark一脚油门踩到了一个数量级开外。

让它跑这么快的,正是Cerebras的WSE-3,一块餐盘大小的晶圆级芯片。

这件事直接引爆了一笔246亿美元的合同,也把Cerebras一路推进了纳斯达克。5月14日首日暴涨68%,2026年至今最大科技IPO。

但Cerebras CFO Bob Komin说,这还只是开胃菜。

IPO前夜,他在采访中亮了一张没人预料到的牌——

我们服务所有模型,对模型大小没有限制。今天,我们正在跑万亿参数的模型。我们正在跑OpenAI内部的GPT-5.4和GPT-5.5。

如果这是真的,Cerebras就不只是一个「小模型快跑」的玩家了,IPO当天的疯狂涨幅立刻站得住脚。

但SemiAnalysis偏偏在同一周甩出了一篇两万字的技术拆解报告,直接把这个故事撕开了一道口子。

Cerebras公开云上,最大的生产模型是GPT-OSS,总参数120B;预览模型最大355B。曾经上过的Llama 70B和405B,后来也被悄悄下了架。

2025年最火,但体量也更大的开源模型(比如DeepSeek),从头到尾就没出现在Cerebras Cloud上。

CFO口中的那个数字,目前只存在于「OpenAI内部」,外界无法验证。

要搞清楚这中间的裂缝有多大,得先看看这块晶圆到底是怎么回事。

一整块硅的赌注

半导体行业干了50年的事情就是切硅片。

一整块晶圆刻出几十颗芯片,切割,封装,各干各的。英伟达的B300已经把单颗芯片撑到了858平方毫米,基本上是光刻的极限了。

相比之下,Cerebras却反其道而行——它不切。

整块晶圆就是一颗芯片。

46,225平方毫米,比英伟达的GPU大58倍,大约一个餐盘的尺寸。上面集成了4万亿个晶体管、90万个计算核心,和44GB的SRAM内存。

重点来了,SRAM。

GPU用的是HBM(高带宽内存),容量大但速度相对慢。一块B300配了288GB的HBM,带宽在TB/秒级别。

WSE-3只有44GB的SRAM,但内存带宽高达21PB/秒。

Cerebras速度碾压的秘密就在这里。

SRAM带宽大到解码时几乎可以把全部计算核心喂饱。GPU的计算核心只能饿着等内存。

而推理的瓶颈,正是解码。

模型一个token一个token往外吐的时候,每吐一个就要把全部权重从内存里读一遍。带宽越高,读得越快,token出得越快。

SemiAnalysis做了一个很直观的对比。

同样只给一个用户生成token的场景下,GPU能实际利用的算力只有理论峰值的零头。WSE-3理论上可以把全部15.6 PFLOPS的FP16算力吃满。

差距不是百分之几十,而是数量级的。

用他们的原话形容,这就像是公交车和F1的区别。

GPU是公交车,一次拉很多人但每个人都慢。WSE-3是F1赛车,一次只拉一个人但飞快。

想用赛车的客户,甚至愿意付6倍价格来买速度。Opus 4.6 fast已经证明了这一点。

但这辆「车」有一个致命问题——它的「油箱」只有44升。

对于小模型来说,WSE-3的44GB SRAM绰绰有余,但放到今天的大模型面前根本不够看。

DeepSeek V4有1.6万亿参数,即使用最激进的压缩方式(FP8量化),光权重就要490GB。一块WSE-3装不下,要切成至少12块塞进12块晶圆。

分布就要通信,而这也是Cerebras最致命的短板。

每块WSE-3对外带宽只有150GB/秒。

英伟达一块Blackwell GPU通过NVLink5能跑到900GB/秒,是Cerebras的6倍。被英伟达收购的Groq更夸张,单颗LPU3就有9.6Tb/秒,8倍。

带宽加不了。这是物理层面的死结。

WSE-3的制造方式决定了一切。整块晶圆用同一套模板反复曝光,12列7行,84个完全相同的die拼成一颗芯片。

想加高速通信端口(SerDes),就得在每个die里都加。但84个die里只有边缘的能接到外面,中间的全是摆设,纯粹浪费硅面积。

更要命的是,SerDes是模拟电路,面积大,还会干扰旁边的数字逻辑。在die中间放SerDes,等于在自家的高速公路上挖坑。

所以Cerebras被困在了一个岛屿上。岛上的高速公路四通八达,但通往外界的桥只有一座单车道。

如此一来,Cerebras跑大模型只剩一条路,把模型按层切开,每块晶圆放几层,晶圆之间只传中间计算结果(比完整的模型权重小得多)。

但流水线越长,延迟越高。

SemiAnalysis算了一笔账,12块晶圆跑DeepSeek V4,光是层间传输的固定延迟就要叠加12次,缓存数据的搬运时间高达数毫秒。

所以CFO在CNBC上说的那番话,至少目前更像是路线图上的故事。

但在120B以下这个区间,Cerebras交出的成绩单没什么好挑的。

代价是什么呢

知名评测机构Artificial Analysis用Llama 4 Maverick做过实测,Cerebras 2400 token/秒,英伟达Blackwell 1040 token/秒,直接碾了一倍多。

AI编程工具Devin背后的Cognition已经把Cerebras接进了产品,快速模式下1000 token/秒。Notion、LiveKit、GSK等也已经在用。

但代价是,公开云跑得动的上限就是GPT-OSS级别,最大上下文只有128K。

根据SemiAnalysis从Claude Code、Cursor等工具中采集的43.2万条真实请求,其中有将近50%都超过了128K。

而Agent时代的上下文只会越来越长,128K很快就是瓶颈。

速度快,但模型小、上下文短、选择少。这就是开发者今天拿到手的Cerebras。

但这里藏着一个很多人还没注意到的细节,足以改变整个竞争格局。

Cerebras与OpenAI的协议里写着一条排他条款,合同期内不得向「特定OpenAI竞争对手」出售产品。

CEO Feldman没有点名,但所有人都知道指的是谁,Anthropic。

12%股权、10亿美元贷款、246亿美元订单锁定。Cerebras已经被牢牢绑在了OpenAI的战车上。

推理战争,OpenAI刚刚换了一把枪

如今,AI军备竞赛的主战场已经变了。

训练只做一次,推理每天做数十亿次。

2026年三分之二的AI算力消耗在推理上,到2027年预计达到80%。

根据OpenAI的计划,AWS的Trainium负责理解用户输入,Cerebras负责生成输出token,GPU负责训练和长上下文,三套硬件各管一段。这套组合拳只为一件事,成本打下来,速度拉上去。

对比之下,Opus 4.6 fast的速度已经从100 token/秒退化到了70 token/秒,Cerebras也在合同里把它锁在了门外。

那么问题来了,Anthropic的极速推理方案在哪里?

作者:ASI启示录

来源:新智元

]]>
Gemini 3.5 Pro全网首曝,编程追平GPT-5.5 //www.f-o-p.com/381495.html Tue, 19 May 2026 01:10:49 +0000 //www.f-o-p.com/?p=381495

 

就在刚刚,Gemini 3.5提前曝光了!

网友Lentils放出最新消息,代号「Cappuccino」的Gemini 3.5 Pro检查点已经开始产出。

而就在几个小时前,传闻还是Gemini 3.2,没想到一下子就替换成了Gemini 3.5。

从3.2到3.5的跳级命名,谷歌显然想在I/O上讲一个更大的故事。

Gemini大更新,谷歌祭出杀招

前一天,知名爆料人can率先晒出了首批输出。

一个是DualShock 4手柄的交互式蓝图拆解,另一个是鹈鹕骑自行车的矢量插画,自带7维定制面板,车架颜色、光照、头饰、篮筐内容、蹬车速度全部实时切换。

从截图来看,这已经不是简单的SVG了,而是一个prompt生成的完整交互式Web应用!

Abacus.AI CEO Bindu Reddy随后放出的数据更炸——

3.2 Flash在编码和推理上达到GPT-5.5的92%,成本却便宜15到20倍。

不仅如此,谷歌全新的全时Agent「Gemini Spark」也被扒了出来。

可以看到,它不仅能全天候待命,帮你管邮件、跑任务,甚至可能不问你就替你下单。

然而就在此时,Alex Heath的独家爆料,却狠狠地泼了一盆冷水——

新款Gemini的性能,最多只能追平OpenAI的GPT-5.5……

一个prompt四个方案,Gemini「懒癌」治好了

先看好消息。

以前Gemini生成SVG,社区最常用的吐槽就一个字,「懒」。给一个prompt,出一个敷衍结果。

但这次不一样了。

网友Lentils只用了一个简单提示,Gemini就直接出了4个风格各异、细节拉满的Robot SVG。

同期泄露的3.5 Flash也印证了这个趋势。

LM Arena的匿名跑分显示,Flash在SVG生成、交互式3D编码和动画处理上已经超过了3.1 Pro。

换句话说,谷歌的蒸馏加稀疏化技术正在收获回报,把前沿模型压成了轻量版,质量断崖却没出现。

帮你管邮件、替你花钱,谷歌Agent胆子够大

同一天的另一个重磅泄露是「Gemini Spark BETA」。

根据爆料,Spark的定位是「你的日常AI智能体,全天候待命」。

一个24小时全时运转的AI Agent,帮你处理收件箱、执行在线任务、管理多步骤工作流。

Spark的数据来源清单让人倒吸一口气。

已连接的Google应用、技能模块、聊天记录、定时任务、你登录的网站、Personal Intelligence、位置信息。

Gemini会把你的姓名、联系方式、文件、偏好等信息分享给第三方来完成任务。

此外,为了保持会话连续性,系统还会保存远程浏览器数据,包括登录凭证和远程代码执行数据。

不过值得注意的是,Spark虽然设计上会在敏感操作前征求许可,但它「可能在未经询问的情况下分享你的信息或完成购买」。

也就是说,它可能不问你就下单,也可能不问你就把信息分享出去。

Spark的前身是谷歌内部代号「Remy」的Agent升级版,此前只面向AI Ultra订阅用户。

从Remy到Spark,Gemini的Agent从「一个功能」一步升格为「24/7的数字生活管家」。

这正面对标Anthropic即将发布的托管Agent Conway,以及OpenAI已经上线的24/7 Agent平台。

半年前的榜首,半年后摸不到前沿的边

好消息到此结束。

根据Alex Heath从多个信源处得到的确认,下周二发布的新Gemini,大致落在GPT-5.5这个档位,距离Mythos还有明显差距。

想当初,刚发布的Gemini 3凭借着LMArena 1501 Elo,几乎扫了所有主流排行榜第一。

半年过去,GPT-5.5、Opus 4.7、Mythos相继发布后,格局已经被彻底改写。

英国AI安全研究所的评测显示,Mythos是第一个同时通过其两套网络安全测试范围的模型,GPT-5.5只通过了一套。

AISI甚至承认,评测框架已经快跟不上Mythos的能力了。

回到谷歌这边,根据网友Fandu扒到的模型选择器的最新界面,新款Gemini很可能原生支持MCP第三方工具接入,Thinking模式也将全面重构。

可以看到,除了3.1 Flash-Lite、3 Flash、3.1 Pro这几个大家熟知的模型外,还多了一个从未见过的分类「MCP Tool Testing」,也就是「可用于MCP工具测试的模型」。

思维模式也从原来的独立Thinking模式,变成了全局开关,分Standard(适合大多数问题)和Extended(求解复杂问题)两档。

编程,最让DeepMind焦虑的战场

Heath的爆料中,编程部分的措辞最重。

他说,DeepMind内部正面临着切实的压力,尤其是在编程能力方面需要迎头赶上。

追赶目标很明确,Anthropic。过去一年,Claude在开发者群体中坐稳了默认选项。

新Gemini会包含编程改进,但在Heath的信源里,没有一个人认为会带来质变。

谷歌的AI编程平台Antigravity,内部用得很多,但在外部市场一直没能突围。

4个月6%的开发者采用率,对一个IDE来说不算慢,但跟Claude Code和Codex的势头比差距明显。

问题出在哪?

XDA的一篇月度评测试了三个工具做同一个任务。

Claude Code第一次就准确理解了复杂创意提示。而Antigravity的输出却像是用「微软画图」做出来的涂鸦。

此外,Antigravity的定价策略也让开发者头疼。

谷歌已经多次调整定价模型,从免费预览到信用点制度,社区论坛上关于额度用完没提醒的抱怨一直没断过。

但最为关键的在于,如今AI编程已经彻底出圈了。

不管Claude Cowork,还是OpenAI的Codex,都能让不会写代码的人用得飞起——

产品经理用自然语言描述需求,直接得到可运行的原型。设计师把Figma稿丢进去,拿到前端代码。

然而到目前为止,谷歌都没有任何产品能够进入这个对话。

不过,知名大佬Haider的评论倒是提供了另一个视角。

谷歌可能并不打算通过跟别人跑同一条赛道来取胜,他们更大的重心在于打造一个更强大的多模态系统,而这需要时间。

通往ASI的飞轮,三家同时踩油门

虽然模型追不上,但谷歌有10亿级分发入口和全时Agent。

Spark一旦铺开,用户的邮件、日程、购物、浏览数据将反哺Gemini的下一代训练。

这是OpenAI和Anthropic都很难复制的打法。

但竞争对手没有闲着。

就在昨天,OpenAI给Codex追加ultrafast模式,速度提升2-3倍,还祭出补贴战,30天内切换的企业2个月免费。3小时内2000名开发者响应。

Anthropic同步放出Opus 4.7 Fast模式,Claude Code额度提升50%。

这场补贴战表面上是抢开发者,底层逻辑比这深得多。

GPT-5.6的开发几乎可以确定是在GPT-5.5的深度参与下进行的。 AI写的代码反哺AI的训练,谁掌握了编程工具的用户,谁就掌握了这个循环的加速器。

三家在三条赛道上同时踩油门。

OpenAI靠迭代速度碾压,三周一个新版本。Anthropic靠模型质量封神,Mythos重新定义了前沿。谷歌靠分发和Agent包抄,把AI塞进10亿人的手机里。

没有人在减速。通往ASI的飞轮,已经开始自转了。

而对于每天都在用这些工具的人来说,这场三巨头的军备竞赛,可能是2026年最划算的一件事。

补贴在加码,额度在提升,模型在变强,价格在下降。

唯一的问题是,你的工作流押对了赛道吗?

编辑:好困

来源:新智元

]]>
GPT-5.5发布:OpenAI的”超级应用”野心 //www.f-o-p.com/380995.html Mon, 27 Apr 2026 03:10:59 +0000 //www.f-o-p.com/?p=380995

 

当OpenAI用GPT-5.5描绘’超级应用’蓝图时,我们看到的究竟是未来工作方式的革命,还是资本市场的新故事?从编程工具到AI浏览器,这场强行整合背后隐藏着用户重叠度不足、平台锁定风险和数据主权危机。本文深度剖析GPT-5.5的技术突破与战略困境,带你穿透基准测试的迷雾,看清AI巨头们正在上演的这场’既做选手又做裁判’的危险游戏。

一个问题先抛出来

如果你现在问一个普通互联网用户:“你知道OpenAI最近发了新模型GPT-5.5吗?”

大概率得到的回答是:”哦,发了啊。”然后该刷抖音刷抖音,该开会开会。

但如果你换一种问法:“如果有一天,你的编程工具、写代码的IDE、每天浏览网页的浏览器,以及和一个无所不知的AI聊天框,全部被整合到一款叫OpenAI的’超级应用’里,你觉得自己的生活会变好吗?”

这个问题,大概会让一部分人陷入沉默。

2026年4月24日,OpenAI正式发布GPT-5.5,官方措辞依然是那套熟悉的配方——“迄今最智能、最直观易用的模型”。联合创始人Greg Brockman在发布会上说,这是”打造超级应用的一大步”。

比起模型参数的更新,这个”超级应用”的叙事,才是真正值得深究的东西。

01 “超级应用”不是新概念,OpenAI这次画的饼有什么不同?

“超级应用”这个词,在中国互联网语境里早就被说烂了。微信是超级应用,支付宝是超级应用,抖音某种程度上也是超级应用。它的标准定义是:一款集成多种功能于一身、能够满足用户日常生活大部分需求的移动应用。

现在OpenAI跳出来说,我也要做超级应用。

但OpenAI版本的”超级应用”,和微信、支付宝那套玩法有一个本质区别:后者解决的是人的生活需求,而OpenAI想解决的是人的工作需求。

布罗克曼描述的”超级应用”蓝图中,ChatGPT、Codex(编程工具)和AI浏览器将被打包成一款统一服务。想象一下:你早上打开这个应用,AI帮你写邮件;中午让它帮你debug代码;下午让它自动抓取竞品数据、分析报表——全部在一个界面里完成,不用切换任何工具。

这个画面听起来很美好。但美好和现实之间,往往隔着一整个太平洋。

我的第一个质疑是:这三件事,真的应该被捏在一起吗?

ChatGPT的核心使用场景是自然语言对话,用户期待的是快速获取答案或者完成碎片化的文字任务。Codex的用户是专业开发者,他们需要的是精确的代码生成、上下文理解和工程级的能力输出。AI浏览器则针对的是自动化任务执行——模拟人类操作网页、填写表单、批量处理信息。

这三类用户的重叠度,远没有OpenAI想象的那么高。一个每天用ChatGPT聊天的人,大概率不写代码;一个专业开发者,更可能直接用VS Code加插件,而不会在一个通用AI界面里做工程开发。

强行整合的结果,可能不是”瑞士军刀”,而是”四不像”。

第二个质疑:OpenAI做超级应用,是主动出击,还是被迫防守?

我们把时间线拉回到2026年初。Anthropic的收入已经做到约300亿美元,主要靠编程工具Claude Code打开企业市场。Google的Gemini 3.1在多模态能力和企业本地部署上建立了差异化优势。Meta开源了LLaMA系列,继续在开发者生态上蚕食OpenAI的市场。

而OpenAI呢?ChatGPT的增长趋于平稳,API调用量的增速在放缓,Sam Altman四处奔走融资,估值压力一年比一年大。

在这种情况下,”超级应用”的故事,对资本市场有多重要,不言而喻。一个产品公司讲不出新故事,就要讲平台故事;平台故事讲不圆,就讲生态故事。OpenAI现在做的,不过是互联网公司讲故事的经典套路。

但我没有说”超级应用”一定做不成。 这里面有一个合理的逻辑:随着AI能力越来越强,用户其实也在期待一个”一站式AI工作台”。当你每天要在五六个AI工具之间来回切换的时候,你自然而然会想要一个统一的入口。OpenAI看到了这个需求,这是对的。问题在于,它有没有能力整合好,以及整合好了之后,用户是否真的买账。

02 GPT-5.5到底强不强?别被基准测试的数字骗了

说完了故事,再来看看硬货。

OpenAI给出的数据显示,GPT-5.5在一系列基准测试中,优于Google的Gemini 3.1 Pro和Anthropic的Claude Opus 4.5。速度更快,思维更敏捷,消耗的token更少。

首席科学家Jakub Pachocki在发布会上说了一句很狂的话:“过去两年的发展速度,出乎意料地慢。”

我欣赏这种自信,但我更关心的是:这些数据,对普通用户意味着什么?

首先,基准测试永远只是基准测试。

AI行业的基准测试,已经被玩成了”考驾照”——厂商针对考试内容反复训练,然后在公开测试上刷出高分,但实际开车上路的表现,可能和考试成绩完全不符。Math benchmarks、编程 benchmarks、MMLU,这些测试覆盖的场景,只是AI真实使用场景的一小部分。

更关键的是:GPT-5.5比GPT-4.5强,这一点毫无疑问。但它比Claude Opus 4.5强多少?这个”强”,在你的日常使用中能感知到吗?

对绝大多数用户来说,GPT-4.5已经足够好了。Claude Opus 4.5也足够好了。它们之间的差距,在实际工作场景里,可能就是”这个回答让我满意”和”这个回答让我非常满意”的区别——但这两者之间,用户真的会在意吗?

其次,token效率的提升,是一个被严重低估的进步。

布罗克曼说GPT-5.5″使用的token更少”,这句话我反而觉得是整场发布会里最有价值的信息。

Token是什么?简单说,token是大模型处理信息的计量单位。每次你发一段文字给AI,AI回复一段文字,都是在消耗token。而token的消耗,直接关系到企业的成本。

OpenAI API的定价虽然一直在降,但对日均调用量上万次的企业来说,token成本依然是不可忽视的支出。如果GPT-5.5能在保持同等输出质量的前提下,减少20%~30%的token消耗,这对企业用户来说,是实实在在的省钱。

换句话说,GPT-5.5最大的受益者,可能不是个人用户,而是那些日均调用量巨大的企业客户。

第三,科学研究和药物研发,这个方向我举双手赞成。

马克·陈特别提到,GPT-5.5在”科学和技术研究工作流程方面展现出显著优势”,并且能够”帮助专家科学家取得进展”,特别提到了药物研发。

这是整个发布会里,唯一让我真正兴奋的点。

为什么?因为药物研发是一个周期极长、成本极高、失败率极高的领域。一款新药从研发到上市,往往需要十年时间和数十亿美元的投入。如果AI能够在分子模拟、靶点发现、临床试验设计等环节提供实质性帮助,哪怕只是缩短5%的研发周期,都是医学史上的重大进步。

AI在聊天、写文案、做PPT上的应用,是锦上添花;AI在药物研发、疾病诊断、材料科学上的突破,才是真正改变人类进程的变革。

OpenAI如果真的能把GPT-5.5的能力,落地到这些垂直领域,那”超级应用”的故事,反而没那么重要了。做一款专业的科学AI工具,比做一款什么都做的”超级应用”,更有价值,也更可持续。

03 神仙打架:OpenAI vs Anthropic,竞争正在走向白热化

GPT-5.5发布同一天,Anthropic也没闲着。

先是一条坏消息:Anthropic近期面临产品性能下降的质疑。有用户反映Claude Opus 4.6的性能出现退化,新版本Opus 4.7虽然基准测试分数更高,但成本上涨、稳定性下降、表现不一致,用户的评价严重分化。

紧接着是一条好消息:Anthropic宣布与国际律师事务所富而德(Freshfields)达成合作,联合开发法律AI工具。富而德将获得Anthropic未来模型和产品的优先访问权,这是Anthropic自称”迄今为止最重要的律所合作项目”。

再加上此前Anthropic旗下高风险模型Mythos因”未经授权访问”引发安全争议、Claude Code功能从Pro订阅中移除引发用户不满——Anthropic正在经历”高增长与运营压力并存”的典型阶段。

但我必须说一句公道话:Anthropic面临的这些问题,本质上是一个快速成长的公司,在Scaling过程中必然会遇到的结构性挑战。

300亿美元年收入,放在任何行业都是一个惊人的数字。Anthropic的问题不是它不行了,而是它跑得太快,管理、架构、产品都在超负荷运转。这和一个人连轴转了三天三夜之后效率下降,是一个道理。

相比之下,OpenAI的问题更隐蔽,也更危险。

OpenAI现在面临的最大挑战,不是技术,而是商业模式的天花板越来越近。ChatGPT的月活增长趋于平稳,API调用量的价格战越打越凶,Anthropic和Google在编程工具市场不断攻城略地——OpenAI的护城河,并没有它自己描述的那么宽。

这也是为什么”超级应用”的叙事对它如此重要。一旦OpenAI成为一个平台型的超级入口,它就能从”卖模型”升级为”卖生态”,估值逻辑就完全不同了。

但Anthropic显然不会让OpenAI如愿。就在OpenAI发布GPT-5.5的同一天,Anthropic联手富而德,在法律AI这个高价值垂直领域布下了一颗棋子。法律服务的客单价高、付费意愿强、场景足够复杂——这是AI落地最好的试验田之一。

我个人的判断:在AI领域,“垂直深耕”的价值,正在悄悄超过”全面覆盖”。

OpenAI做超级应用,是广度路线;Anthropic做法律AI,是深度路线。谁能走得更远,现在下结论为时过早,但至少在短期内,法律、医疗、金融这些高价值领域的AI落地,会成为决定胜负的关键变量。

04 当”超级应用”成为现实:用户真正该担心什么?

我们假设一个最乐观的场景:OpenAI的超级应用做成了,ChatGPT、Codex、AI浏览器真的被整合成了一款统一产品,用户体验流畅,效率大幅提升。

然后呢?

第一个问题:数据主权。

当你的工作流全部在一个应用里完成,你的每一次对话、每一行代码、每一个浏览操作,都在OpenAI的服务器上积累。你写的代码,你分析的竞品数据,你和企业客户的沟通内容——理论上都是OpenAI可以获取的数据。

2025年,Anthropic就曾因为一次软件更新,意外暴露了内部Claude Code文件,让外界窥见了其核心产品结构。这还只是误操作。如果OpenAI有意从用户数据中提取价值,用户能察觉吗?能阻止吗?

数据主权这个问题,在AI时代会比互联网时代更加尖锐,因为AI模型的训练和优化,本身就需要海量数据。当一款超级应用成为你工作流的唯一入口,你其实也在成为它训练数据的一部分。

第二个问题:平台锁定。

一旦你的工作流程深度依赖OpenAI的超级应用,切换成本会高到令人窒息。你的代码习惯、对话模板、自动化工作流——全部针对OpenAI的接口做了优化。换到Anthropic?从头学起。换到Google?API不兼容。三年积累的工作习惯,说扔就扔?

这和当年企业深度依赖SAP、Oracle的逻辑一样。不是因为它们最好,而是因为切换成本太高。平台锁定一旦形成,用户就不再是客户,而是资产。

第三个问题:竞争的最后受益者是谁?

我们说了很多OpenAI和Anthropic的竞争,但有没有一种可能:这场竞争的最终受益者,既不是OpenAI,也不是Anthropic,而是那些在AI浪潮中闷声发大财的”卖水人”——英伟达、AMD、微软Azure、AWS……

做大模型的公司打生打死,底层算力供应商稳坐钓鱼台。无论谁赢谁输,算力的需求只会越来越大。这才是AI时代最确定的赢家。

而对于普通用户和开发者而言,在这场巨头博弈中保持清醒,知道自己的核心竞争力在哪里,知道不该把鸡蛋放在哪个篮子里,比追着发布会赶时髦要有用的多。

05 写在最后:技术进步是真实的,但故事也是该警惕的

GPT-5.5发布,这是真实的进步。更强的推理能力,更高的token效率,更广的落地场景——这些都值得肯定。

但”超级应用”的叙事,需要打一个大大的问号。

OpenAI真正应该做的,不是让用户在一个应用里完成所有事情,而是让AI无缝嵌入用户已经在做的所有事情。

最好的工具,是用户感受不到工具存在的工具。当有一天你发现自己工作的时候,已经离不开OpenAI——不是因为它是一个超级应用,而是因为它就像电一样,融入了你生活和工作的每一个角落——那才是OpenAI真正成功的标志。

而不是反过来,用一个界面把所有功能堆在一起,然后告诉用户:“看,这就是未来。”

未来不是这样的。未来应该是分散的、去中心化的、让用户有选择权的。OpenAI想成为AI时代的iOS,但别忘了,这个星球上还有很多人更喜欢开源的Android。

最后送一句话给OpenAI,也送给所有AI从业者:真正的护城河,不是用户离不开你,而是你创造的价值,值得用户选择你。

作者:AI驯化师的好奇心

]]>
GPT-5.5 发布:版本号正在失去意义 //www.f-o-p.com/380962.html Fri, 24 Apr 2026 05:46:37 +0000 //www.f-o-p.com/?p=380962

 

OpenAI 发布 GPT-5.5,代号 Spud。距离上一代 5.4 只隔六七周;再往前数,5.3 到 5.4 只隔两天。

如果你还习惯用“发布会—代际跃迁—用户升级”这个框架看模型更新,现在恐怕要变了。GPT-5.5 本身并不是这条新闻里最值得关注的部分——它比 5.4 聪明一点、token 消耗少一点,在 Terminal-Bench 2.0 上以 82.7% 拿下 SOTA(Claude Opus 4.7 是 69.4%,Gemini 3.1 Pro 68.5%)。

值得关注的,是“发布”这件事本身已经不再是 AI 公司的产品节奏。

一、版本号正在失去意义

六周发一次,偶尔两天发一次。再过几个月,版本号会变成 5.7、5.8。那个时候再问“5.8 和 5.7 差在哪”,答案会越来越像“Chrome 137 和 136 有什么区别”。

过去 GPT-3.5 到 GPT-4,GPT 4o和GPT-5都是一次叙事事件,现在 5.4 到 5.5 只是一次部署。模型不再是一件事,而是一条水管。

对做内容、做工具、做工作流的人来说,这件事的含义是具体的:“选模型”这个问题正在失效。

比如文档翻译工作流——格式处理、术语库/记忆库/风格指南的处理、怎么和译者交互、质检流程——这些东西的价值,随着模型同质化,反而在升高。

铁打的工作流,流水的模型,特别是当模型发布节奏从年变成周的年代里。

二、提示词工程正在消亡

今天的官方blog里,有一句话值得注意的话:

“你不必小心翼翼地管理每一步,可以直接把一个杂乱的、多步骤的任务交给 GPT-5.5,信任它去规划、使用工具、自我校验、在模糊中继续前行。”

这是 OpenAI 第一次在发布文里如此明确地把“prompt engineering”这个词扔掉。取而代之的是一个更朴素的词:信任(trust it to plan)。

(去官网看视频,这只是一个截图,lol)

这件事对两类人是好消息,对一类人是坏消息。

好消息给产品经理型的 AI 用户:拆分需求,拆分任务,验收标准——这些都是产品经理的基本功。

好消息也给项目经理类的的语言工作者:翻译领域“译前准备—分派—质检—交付”的流程思维,和 agentic AI 的工作方式天然契合。LanguageX和SmartCAT之类的TMS,本质上就是把“如何把一个翻译任务切给多个模型和语言专家,并最后汇总成品”这件事工程化。

坏消息给给长篇大论提示词的人——prompt 这个界面正在下沉,成为一个系统内部细节。未来的界面是任务描述、是项目文件夹、是IM消息、是会议纪要,模型会自己去 prompt 自己。

这也是为什么我最近发起草诀歌 AI Labs。

如果 AI 的核心界面正在从 prompt 变成任务委任,那么最重要的问题就不再是“谁更会写提示词”,而是“谁更知道自己想做什么”。

三十年河西,非技术背景的人,反而可能在这一轮里获得优势:有真实问题、有审美、有领域经验,只是过去缺少把想法变成产品的工程能力。

三、LLM本身似乎到了一个瓶颈期

GPT-5.5 这次发布,最反常的一点是 OpenAI 不卖“更聪明”。它卖的是——per-token latency 和 5.4 持平,同等任务少用 token,成本是竞争对手前沿编码模型的一半。

LLM似乎在推理跃升之后,又到了一个瓶颈期。上周 Anthropic 的 Opus 4.7 同样没放出颠覆性能力,Gemini 3.1 Pro 也在效率维度做文章,三家前沿厂商同时降速做工程。

聪明到一定程度后,边际收益在递减。大家比的不是“我模型多强”,而是“我跑一个成功任务要花多少钱”。

GPT-5.5 没有颠覆任何事。它只是把三条本来就在进行的曲线,推到了一个肉眼可见的拐点上——发布变成了部署,提问变成了委任,智能变成了单价。

哦对了,GPT-5.5 也不会再像 5.4 那样,“稳稳地接住你”了。

作者:David Lee

来源:David的AI全景图

]]>