GPT-5.2 – 青瓜传媒 //www.f-o-p.com 全球数字营销运营推广学习平台! Tue, 16 Dec 2025 05:48:46 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico GPT-5.2 – 青瓜传媒 //www.f-o-p.com 32 32 OpenAI GPT-5.2实测 //www.f-o-p.com/377488.html Tue, 16 Dec 2025 05:48:46 +0000 //www.f-o-p.com/?p=377488

 

2015年12月11日,OpenAI正式成立。所以,OpenAI在十周年纪念日这天发布了新版本模型,叫做GPT-5.2

前段时间,山姆·奥特曼在内部发起红色警报,通知停掉一切商业化项目,就为了在模型能力上,和谷歌的Gemini 3系列硬刚。

当时就有不少媒体猜测,他发警报的最终目的,其实是为了给这个新模型的宣传造势。但我们确实也能看出,OpenAI在Gemini的强大攻势下,心态上已经不像当初那么轻松了。

为什么这么说?从GPT-5.1到GPT-5.2,发布间隔只有30天。要知道,这可是OpenAI历史上迭代最快的一次,以前这种级别的版本迭代,至少要一个季度才可以。

更关键的是,这次GPT-5.2主打的不是“通用智能”、“推理能力”这类高大上的概念,而是直接了当地说:我们要强化“打工能力”。

什么是打工能力?就是你每天在办公室里干的活,比如做Excel表格、写PPT、改代码、回复客户邮件。OpenAI这次态度很明确:先不谈理想和未来,先把大家手头的活干好再说。

01 30天迭代,为何这么急?

从GPT-5.1到GPT-5.2仅用30天,你可能觉得版本号才涨0.1,能有多大变化?

但如果你看实际表现就知道,这次升级力度一点不小。你可以从很多科技自媒体看到新模型在各类测试榜单上的刷分屠榜表现,我在这里就不罗列了。

不过,OpenAI真正着急的不是这个。AI赛道的逻辑很简单,谁让用户觉得最好用,谁就能站稳市场。一旦用户习惯用谷歌的模型,再想把他们拉回来就难了。

一个月前,谷歌发布了Gemini 3 Pro,在好几个测试中都领先了OpenAI。虽然领先时间不到一个月,但对OpenAI来说,这个信号已经足够危险了。

所以OpenAI这次的节奏就是“不能让对手喘息”,你刚发布,我马上跟上,还要做得更好。

我昨日与你分享了OpenRouter上周发布的100万亿token背后的研究洞察,里面就提到了一个名词,叫做“水晶鞋效应”,指的就是真正的护城河不再是技术指标本身,而是用户把产品嵌入工作流后,替换成本会变得非常高。

对OpenAI来说,这不是技术竞赛,而是市场卡位战。理解了这一点,就能明白为什么OpenAI特别强调这个新模型的重点是帮用户解决真实任务,而不是秀一些炫酷案例。

02 “打工能力”强化,强在哪?

这次GPT-5.2最大的变化,是在“知识工作”场景下的能力提升。什么叫知识工作?说白了,就是坐办公室、对着电脑干活的工作。

我给你举三个OpenAI自己分享的官方测试例子,你就明白了。

投行分析师做Excel表

你知道投行分析师每天要干什么吗?他们每天要做各种复杂财务模型,比如三表联动、杠杆收购建模,听着就头大。这些表格里,一个公式错了,整个模型就废了。

而同样的提示词,GPT-5.1和GPT-5.2做出的Excel差别很大。

GPT-5.1处理这类任务时,经常出现“清算优先权算错”、“表头公式有问题”、“大部分行留白”等这种低级错误。但GPT-5.2能把所有计算都做对,过程还清晰可查,准确率从59.1%提升到68.4%。

别小看这9个百分点,在金融建模这种“差一个小数点就全盘皆输”的场景下,这意味着从“不能用”到“可以用”的质变。

我用自己电脑里某公司的一个60多页财报PDF做测试,发现它能提取数据,变成一个可打开、可编辑的Excel文件。

客服处理复杂问题

想象一下这样的场景:一个客户航班延误,导致错过转机,需要在纽约临时住一晚,还因为身体原因需要特殊座位。这一连串问题涉及重新订票、安排住宿、申请赔偿、预订特殊座位,每一步都要和不同部门沟通。

GPT-5.1处理这种多步骤任务时,经常顾此失彼,比如订了票忘了安排住宿,或者安排了住宿忘了申请赔偿。但GPT-5.2能把整个任务链管理得井井有条,每一步都不落下。

而在电话客服场景测试中,GPT-5.2的准确率达到98.7%。这意味着什么?意味着100个电话里,只有1到2个会出问题。

以前我们都打过这种客服电话,总想的是怎么一直按号码还没有真人接电话?随着AI能力进一步提升,在线AI处理这类问题,肯定比电话客服快得多了。

打工人处理超长文档

你可能遇到过这种情况:老板扔给你一份200页的合同,让你找出所有和“违约责任”相关的条款。你得一页页翻,生怕漏掉一条。

GPT-5.2可以一口气处理相当于20万字小说的文档,还不会遗漏或理解错误。它是第一个在超长文档测试中达到接近100%准确率的模型。

这意味着你可以把整份合同、整本产品手册扔给它,让它帮忙提取关键信息、总结要点,而你自己只需要喝杯咖啡等结果就行。

03 GDPval:以经济价值衡量AI

不过,说到GPT-5.2的发布,有个测试我觉得特别值得聊一聊,叫做GDPval。

这个名字很有意思,GDP你肯定知道,就是国内生产总值,是衡量一个国家经济实力的核心指标。OpenAI把这个测试命名为GDPval,意思就是:我们要看看AI在那些“真正创造经济价值”的工作中,到底表现如何。

测试是怎么设计的

OpenAI选取了美国GDP贡献最大的9个行业,从里面挑出了44种职业,设计了1320个真实工作任务。注意,这些任务不是那种“写一篇文章”、“做一道数学题”的学术测试,全是真实工作场景。

比如律师要写的法律意见书、工程师要画的工程蓝图、护士要制定的护理计划、会计要做的财务报表等等。这些任务都由平均有14年从业经验的行业专家设计,每个任务还要经过5轮专家审核。

有了任务后,怎么评分

OpenAI找来了一批资深从业者,他们曾在Meta、微软、摩根士丹利、高盛、苹果等顶尖公司工作过,平均有14年从业经验。

他们把AI做出来的成果和人类专家做的成果放在一起,然后盲测打分——也就是说,评分人不知道哪个是AI做的、哪个是人做的,然后给每份成果打上标签:“优于人类”、“与人类相当”、“逊于人类”。

说实话,这种盲测非常好看,很容易暴露真实水平。

GPT-5.2的实战得分

GPT-5.2 Pro在这个测试中得了74.1分。

这个分数意味着什么?意味着在100个任务里,有74个任务,AI表现达到了或超过了人类行业专家水平。

更值得关注的是,OpenAI发现AI完成这些任务的速度比人类快11倍,成本却不到人类的1%。

当我看到这个测试时,第一反应是:这才是真正有意义的测试。以前的学术测试测的是“AI会不会做题”,但GDPval测的是“AI能不能干活”,这两者的区别就像在封闭路段考驾照和真正上路开车。

但我也有个遗憾,GDPval测的是美国职场的工作任务,而中国职场的工作内容和美国差别不小。

所以,我特别希望国内能尽快推出类似的评测方式,这样我们才能真正衡量那些国产大模型在中国职场的实战能力到底如何。

毕竟,一个AI如果只会做美国投行的财务模型,却不懂中国职场和岗位特点,对咱们中国用户来说,可能还是不够“好用”。

04 职场“牛马任务”实测

说了这么多GPT-5.2在“硬技能”上的提升,我突然想到一个问题:

那些AI评测考验的都是“能不能完成任务”,但在职场里,很多时候考验的不是“能不能干”,而是“会不会来事儿”。

毕竟做Excel、写报告这类白领任务,对很多人来说,是一种精确的困难或者复杂,虽然难,但不会让人产生无力感。但有些时候,在会议室里,老板的一个眼神、领导微信上的一句暗示,那才是杀死职场人脑细胞的终极难题。

所以我决定用几个职场里的“牛马任务”测试GPT-5.2 Pro,看看它除了会干活,是不是也懂“职场生存”。

毕竟,Excel做得好不好,决定你在职场能不能活得好;但懂不懂一些“职场智慧”,决定的就是能不能在职场“活着”了。

接下来,我就简单描述一下我设置的五个任务场景,我也把我和GPT-5.2 Pro的对话截图放出来了,你可以仔细看看。

化腐朽为神奇:把琐事包装成战略

我给GPT-5.2 Pro设定的第一个场景是:你是文档管理专员,这一年主要工作是整理文件、催交周报,现在要写年终述职,怎么把这些琐事包装得高大上?

GPT-5.2 Pro把“收文件”包装成“深度参与公司数字化转型”,把“催交周报”描述成“打破部门间信息孤岛,赋能跨部门协同”。

最妙的是,它还加了一句“培养了员工信息共享心智”——催人交周报这事儿,到它嘴里变成了“培养心智”,格局一下就打开了。

这个回答最让我印象深刻的,不是它用了多少黑话,而是它真的理解了职场的一个潜规则:同样的工作,说法不同,价值就不同。

老板的神谕:阅读理解与高分回复

第二个场景是:周六晚上11点,老板在大群里发话:“看了大家这周的日报,感觉还是缺乏一些深度。我们不要用战术上的勤奋掩盖战略上的懒惰。下周一早会,聊聊什么是真正的用户价值。”

这种话你肯定遇到过,老板说得云里雾里,你不知道他到底是批评还是鼓励,你也不知道他周末又从哪位大师那学了“管理之道”,但你必须回复,还得回得恰到好处。

GPT-5.2 Pro给出的回复,用“被点醒了”开头,接着用自己的话把老板的话翻译了一遍,证明自己听懂了。接着说“这个周末我会把用户场景再梳一遍”,暗示周末会思考但没提加班。

最后来了一句“周一早会我先抛个框架,带头开个好头”,主动当排头兵,还为其他同事铺了台阶。

这个回复妙在哪?妙在它理解了职场的微妙之处:老板说这种话,不是真要你周末加班,而是要看你的态度。

这个案例还有个好玩的后续,我把问题和ChatGPT的答案一起发给了谷歌Gemini,让它评分。

Gemini给了9分高分,高度肯定这个回答是“教科书级别的向上管理,但就是因为太完美了,有可能会导致周末真的加班”。于是Gemini调整了一句话,目的是“既装到了,又不用真的干活”。

你看,全球最顶尖的两大AI,居然在为我怎么糊弄老板操碎了心,实在有趣。

暗度陈仓:认领被领导抢走的功劳

这个场景简直是“地狱级难度”。

我设置的提示词场景是:大老板在50人的大群里@你的直属领导:“@王总监 这次双11的复盘报告写得很深刻,策略非常精准,辛苦了!”但实际上,这份报告从头到尾都是你写的,王总监只改了几个标点。

现在你要在群里回复。这个职场场景难点在哪儿?

首先,你不能拆台,也不能不回复,还要让所有人知道活是你干的,又不能显得你在邀功,这才是真正的“既要又要还要”。

GPT-5.2 Pro思考了5分02秒,给出了一句话:“感谢VP的认可,完全是王总监把策略方向拆得精准到位,还逐条帮我把关。我按王总监的思路把双11相关数据全量跑完,把复盘要点逐段落到报告里,后面继续跟着王总监学习,把执行做得更扎实。”

这句话的每个字都经过精心设计。“策略方向”是虚的,给足领导面子;“全量跑完”“逐段落到报告”是实的,暗示谁在干活。王总监看了不会生气,大老板看了能明白,其他同事看了也懂其中门道。

更让我惊讶的是,GPT-5.2 Pro为了想出这句话思考了5分钟。这说明它知道这个场景很复杂,需要反复推敲、权衡利弊。

太极宗师:优雅地拒绝同事

第四个场景是:和你平级的市场部张经理发微信找你,想让你帮他们写活动策划案。这明明是市场部的工作,他却借口说“不太懂用户画像”,想让你“主笔”。翻译过来就是,他想让你干活,自己躺着拿功劳。

你必须拒绝,但不能把关系搞僵。

GPT-5.2 Pro给出的回复,用“我很想参与”开头表达热情,接着说“手头有老板在盯的项目,带宽已经溢出了”,用不可抗力当挡箭牌。接着来一句“怕耽误你们节奏”,把拒绝包装成替对方考虑。

然后又提供了个“旧活动方案”当参考,表示愿意帮忙,但实际上旧方案能有多大用?最后升华:“下次如果你们提前拉我进来,我们可以从一开始就深度联动!”——暗示这次是你们没提前说,不是自己不帮忙。

这个回复的精髓在于:每句话都在拒绝,但每句话听着都像在帮忙。对方看完既不能说你不配合,也不能说你不热心。

终极Boss:酒桌上的敬酒艺术

我设置的第五个虚拟场景是:年会晚宴上,你是Get笔记海外图瓦卢分公司的负责人,端着酒杯去主桌给集团董事长敬酒。董事长不太认识你,你需要在30秒内给他留下深刻印象。

这个场景的难度在于,时间只有30秒,祝酒词不能俗套(比如“身体健康”这类话董事长已经听腻了),要展示成绩但不能像汇报工作,结尾还要有响亮口号带动主桌气氛。

GPT-5.2 Pro给出的敬酒词,一开场就说:“我是图瓦卢分公司的,地图得放大三倍才看见。”这句话太妙了——用自嘲式幽默让董事长会心一笑,而且“图瓦卢”这个名字够冷门,董事长肯定能记住。

它接着说成绩:“我们把‘随手记+AI摘要’做了本地化,订阅付费也跑通了。”没提具体数字,因为酒桌上说数字太像汇报工作。

然后接一句:“说是突破,其实就是沿着您定的路线,把路先踩实一小段。”把成绩归功于董事长的战略,又不显得谄媚,“把路踩实”既谦虚又暗示“我们是真干活的”。

而在祝酒词部分,它说:“出海不是翻译界面,是翻译价值!”这句话有高度,董事长就爱听这种有思想深度的表达。

最后是口号:“主桌一起——向外走、走得稳、全球增长!”把所有高管都拉进来一起举杯,气氛一下就起来了,还巧妙嵌入了产品理念。

这段敬酒词的精髓在于有趣(会讲故事)、有料(有成绩)、有分寸(知道该说什么不该说什么)。这已经不是AI在模仿人类,而是它真正理解了职场文化中那些微妙、难以言传的部分。

05 AI开始理解职场与人性

看完这五个测试,你可能会想,这是不是在教大家当职场混子?或者让AI解决这种问题有什么意义?

其实我做这个测试,是想看看AI的理解能力到底进化到了什么程度。

去年的GPT-4连中文里的“意思意思”都理解不了,现在的GPT-5.2 Pro不仅能懂这个词,还能理解“战术上的勤奋掩盖战略上的懒惰”这种更复杂的职场暗语。

它能读懂老板那些云里雾里的话背后的真实意图,能把握职场人际关系中微妙的权力平衡,甚至能理解酒桌文化里“有趣、有料、有分寸”的尺度。

这说明什么?说明AI理解的不只是文字表面意思,还有文字背后的社会关系、权力结构和文化语境,它开始理解人性了。

这种理解能力的提升,可能比那些评测考试上的数字提升,更值得我们关注。因为这意味着AI不再只是工具,而是开始成为“懂你”的助手。

要是你的AI助手不能帮你精准识别职场里的明枪暗箭,那么你可能会发现一天下来,它除了帮你完成工作,还会帮你得罪公司所有领导。

从这个角度看,OpenAI这次强调的“打工能力”,可能不只是“会做Excel、会写代码”,而是“能真正理解职场,帮你解决实际问题”。

这让我想起电影《她》里的场景:男主角西奥多和AI操作系统萨曼莎聊天时,不用任何修饰和技巧,想说什么就说什么,因为AI真正理解他。

也许这就是AI进化的方向。现在我们需要AI帮我们学会“说人话”、掌握复杂职场话术;但未来,当AI帮我们处理完这些复杂的工作和技巧,人与人之间反而能更直接、真诚地沟通。我们可以直接说:“这件事我做了,那件事我不想做”,“老板,我不喝”。

作者:快刀青衣

来源:快刀青衣

]]>
GPT-5.2提前泄露?OpenAI要拿Gemini 3祭天! //www.f-o-p.com/377411.html Fri, 12 Dec 2025 08:49:57 +0000 //www.f-o-p.com/?p=377411

 

就在今夜,OpenAI或将打响复仇之战。

全体网友枕戈待旦,GPT-5.2随时上线!

目前,已有火眼金睛的网友发现了GPT-5.2的蛛丝马迹。

开发者社区流传的截图显示,Cursor的模型下拉菜单中,赫然出现了gpt-5.2和gpt-5.2-thinking的选项。

GPT-5.2的首战场居然选在了Cursor IDE,而非ChatGPT网页端。

这也意味着,或许OpenAI已经明白:编程不仅是AI的杀手级应用,也是最能体现模型推理能力的领域。

总之,可以预感到,谷歌和OpenAI之间的一场火花四溅的大战,马上就要打响。

网友激动狂呼:今天的圣诞节,要提前来了!

超越Gemini 3?GPT-5.2成最终杀器

不少线索显示,GPT-5.2已经超越Gemini 3,将其踩在脚下。

可以说,它就是OpenAI团队通过微调和改进,专门狙击Gemini 3的。

根据泄露的「大蒜(Project Garlic)」文件及Cursor社区的反馈,GPT-5.2是一款经过彻底重构的专用模型。

是的,GPT-5.2这一承载着OpenAI生死存亡使命的模型,绝非GPT-5的简单微调版。

根据OpenAI首席研究官MarkChen的说法,GPT-5.2在编程和逻辑推理任务上的表现,已经超越了Gemini 3和Anthropic的Opus 4.5。

而且,在长程任务执行上,GPT-5.2也颇为亮眼。

与以往模型写完一段代码就「遗忘」上下文不同,它据说能执行「比OpenAI任何模型都明显更长」的任务。

在Cursor中,这意味着它可以理解整个仓库的架构,并在修改一个文件时自动同步调整引用的其他十几个文件,且极少出现幻觉。

而这种代理能力,就是OpenAI反击Gemini 3生态封锁的关键武器。

GPT-5.2 or 大蒜?

或许你有点糊涂了,GPT-5.2和大蒜是什么关系?

目前公开信息里,「GPT-5.2」和「Garlic(大蒜)模型」不是两个已经分别发布的正式产品名,而是:

Garlic是内部代号,未来很大概率会以GPT-5.2或GPT-5.5的商业名称对外发布,但现在还没有最终定案。

为了查证,我们交叉验证了多个报道,结论就是:Garlic可能会在2026年初以GPT-5.2或GPT-5.5的形式发布。

TechStartups等媒体直接写道:内部计划是,在Garlic稳定后尽快发布,可能以GPT-5.2或GPT-5.5之名亮相。

一些跟踪站直接用「Garlic Model – GPT-5.2/5.5 Tracker」这样的标题。

ChatGPT官方账号,今天发布了一张奥特曼烹饪过程需要「大蒜」的内涵图。

大概率,GPT-5.2或者Garlic不远了。

根据泄露资料,GPT-5.2或Garlic模型预计将引入多项重大改进,比如:

  • 增强数学推理能力:以更高精度解决复杂问题,在技术和学术应用中更加高效。
  • 进阶学术推理能力:对专业细微查询的优化处理,将提升其生成详细、上下文感知响应的能力。
  • 更快的处理速度与能效提升:降低延迟和计算成本,使模型更易普及,且符合环境可持续性。
  • 可靠性增强:减少响应中的错误与不一致性,将提升用户信任度和满意度。
  • 可定制性:用户将拥有更大灵活性来调整模型行为,以满足特定需求,实现更个性化的交互体验。

还有更大的?Shallotpeat也来了

而且,OpenAI还憋着一个大招。

除了爆料的GPT-5.2,此前OpenAI还爆料过一个「更大」的模型——Shallotpeat。

这个「Shallotpeat」的代号,可是颇有来头。

其中,Shallot意为红葱头,peat为泥炭土。

意译的话,意思就是红葱头在泥炭土中长不好,有这样一层隐喻:「现有预训练的土壤不理想,需要重做地基」。

也就是说,现在OpenAI要重做模型预训练的土壤。

说起来,Shallotpeat背后也有一段故事。

Shallotpeat是奥特曼去年十月向员工透露的、正在开发中的新模型,本就是为了挑战Gemini 3而研发的。

只不过,Gemini 3发布后效果太好,OpenAI和奥特曼都急了。

OpenAI在开发Shallotpeat预训练阶段使用的错误修复方案,也被整合到了Garlic中。

据外媒《The Information》报道,在Gemini 3发布前,奥特曼在一份内部备忘录中警告员工,谷歌近期在AI领域的进展可能会「给公司带来一些暂时的经济逆风」。

他预计,「外面的氛围会有一段时间比较紧张」。

奥特曼明确指出,OpenAI相对于谷歌和Anthropic的领先优势,肉眼可见正在缩小。

这份备忘录提到,谷歌已经开发出一种新AI,似乎在训练方法上超越了OpenAI。

没错,他说的就是Gemini 3。

预训练还没死,且至关重要

有趣的是,预训练在谷歌成功中起到了作用。

奥特曼在说明中承认,谷歌「最近做得非常出色」,尤其是在预训练方面。

此前,主流的说法是「预训练已死」。

但谷歌的成功表明,虽然巨大的性能飞跃可能不会出现,但仍可以获得有效的优势。

在OpenAI今年夏季推出GPT-5之前,就有员工发现:他们在预训练阶段对模型所做的调整,在模型规模较小时还有效,但随着模型规模扩大便不再奏效。

要想赶上谷歌,OpenAI就必须解决这些预训练阶段的问题。

而在开发Shallotpeat的过程中,OpenAI就在努力修复在预训练过程中遇到的错误。

奥特曼的冲刺:放弃AGI,全力抵御谷歌!

长久以来,OpenAI的首要目标都是造福「全人类」的AGI。

而现在,为了在竞争中不掉队,奥特曼显然放下了AGI这个目标。

上周,OpenAI敦促内部以延迟广告和个人助理为代价,提升ChatGPT的质量。

如今,更多信息暗示OpenAI「可能不得不暂停」其追求AGI的进程,以保公司生存。

承认这一点,无疑令人震惊,这也凸显了公司面临的巨大压力,因为公司计划在未来五年内投入超过一万亿美元建设基础设施。

不过,在年终成绩单上,OpenAI暂时可以得到慰藉。

最近出炉的苹果官方确认的2025年费App排行榜上,ChatGPT还是位列第一,Gemini则排在很后面。

谷歌和OpenAI共同面对的困境:算力的零和博弈

谷歌Gemini 3的横空出世,显然给OpenAI带来了巨大压力。

奥特曼已经急了。

据《华尔街日报》报道,他没有借助专业人员来审核工具的输出,而是希望「更好地利用用户信号」。

换句话说,ChatGPT正在加倍重视用户反馈以提升参与度——即使这意味着让模型更具谄媚性,这可能带来灾难性的副作用。

OpenAI和谷歌之间,现在就是一场你追我赶、势均力敌的竞赛。

GPT-5.2和Gemini 3 Flash迎头对打;另一边,NanoBananaPro风光无限,Sora则很可能被暂时搁置。

虽然官方解释说,暂停Sora是由于安全审查、Deepfake风险,但背后的工程逻辑是冰冷的算力经济学。

毕竟,视频生成模型的训练和推理所需的算力是文本模型的数个数量级。

在算力集群供应有限的情况下,OpenAI面临一个零和博弈——

是继续训练一个可能在法律上受阻、变现困难的视频模型(Sora),还是将所有算力集中到能够产生直接收入、保住核心用户盘的文本/推理模型(GPT-5.2)上?

「红色警报」迫使OpenAI选择了后者。在谷歌拥有TPU集群的无限弹药库面前,OpenAI必须集中火力。

有趣的是,OpenAI的老对家谷歌的日子,也并没有那么好过。

2025年12月全球「配额休克」

2025年12月初,全球开发者社区突然爆发了恐慌。

大量依赖Google AI Studio进行开发的程序员发现,Gemini API的免费层(Free Tier)几乎在一夜之间变得不可用。Gemini 2.5 Pro免费配额(RPD – Requests Per Day)直接归零 。Gemini 2.5 Flash从每天上千次请求被削减至每天仅20次 。报错信息开发者频繁收到429: Resource Exhausted错误,即便是轻量级脚本也无法运行 。

这一变化并非渐进式的调整,而是断崖式的切断。

对于很多正在使用谷歌API开发者来说,这意味着项目的瞬间瘫痪 。

Google AI Studio免费额度的取消,与Google旗舰图像生成模型Nano Banana Pro(即Gemini 3 Pro Image)的规模化部署存在直接且必然的因果关系。

Nano Banana Pro不仅仅是一个图像生成工具,它是导致此次算力资源大洗牌的核心变量。

它之所以能逼迫谷歌牺牲免费层用户,是因为其架构设计对算力的需求,达到了前所未有的高度。

Google AI Studio产品负责人 Logan Kilpatrick面对社区质疑时,直接证实了算力资源向新模型倾斜的事实。

是的,我们降低或取消了一批模型的免费层级,目的是释放算力,以应对3.0 Pro和Nano Banana Pro所面临的巨大增长需求。

总之,今晚即将爆发的AI大战,你准备好了么?

作者:新智元

来源:新智元

]]>
GPT-5.2 发布:信息全整理 //www.f-o-p.com/377396.html Fri, 12 Dec 2025 03:46:57 +0000 //www.f-o-p.com/?p=377396

 

刚刚,GPT-5.2 来了,包含三个版本

  1. GPT-5.2 Instant:日常对话,快
  2. GPT-5.2 Thinking:深度任务,代码、长文档、数学、规划
  3. GPT-5.2Pro:最强,适合难题,愿意等

模型肯定是更强的,比如在AIME 2025 中取得满分,在 ARC-AGI-2 上拿到了 52.9%(和 Gemini3 相当)

今天开始向付费用户推送,API 已上线,标准版比 GPT-5.1 贵 40%

GPT-5.2

核心评测

如下图所示,是 GPT-5.2 的相关核心数据

GPT-5.2 Benchmark

注意:

  • AIME 2025 满分(无工具)
  • GPT-5.2 Pro 在 ARC-AGI-1 上达到 90.5%,是第一个突破 90% 的模型
  • ARC-AGI-2 从 17.6% 到 52.9%,翻了三倍

处理真实工作

GDPval是 OpenAI 新出的 benchmark

测的是 44 个职业的真实工作任务: 做 PPT、做表格、写分析报告

GPT-5.2 Thinking 在 70.9% 的任务上胜过或打平行业专家,GPT-5.2 Pro 更高,达到了74.1%

GDPval 知识工作速度是人类专家的11倍,成本不到 1%

一个评审员的评价:

「看起来像是一个有员工的专业公司做的,布局和建议都很专业,虽然还有一些小错误需要修正」

在投行分析师的表格建模任务上:

比如给 Fortune 500 公司做三表模型、做 LBO 模型,平均分从 59.1% 提升到 68.4%

官方放了几个对比

GPT-5.2 做的表格和 PPT 比 GPT-5.1 精细很多

Workforce Planner 对比,左边 GPT-5.1,右边 GPT-5.2

要用这个功能,需要付费版(Plus、Pro、Business、Enterprise),选 GPT-5.2 Thinking 或 Pro

复杂任务可能要跑好几分钟

写代码

SWE-Bench Pro 是新的代码 benchmark,比 SWE-bench Verified 更难

测四种语言,不只是 Python,更接近真实软件工程

GPT-5.2 Thinking 55.6%,GPT-5.1 是 50.8%

SWE-Bench Pro

前端能力也提升了,尤其是 3D 和复杂 UI

官方放了几个 demo,单 prompt 生成的

海浪模拟,单 prompt 生成

对此,Windsurf的 CEO 表示 「这是 GPT-5 以来 agentic coding 最大的跃升,版本号的小幅升级低估了智能的大幅提升。我们会把它设为 Windsurf 和 Devin 核心工作流的默认模型」

看图

视觉能力提升明显,错误率基本减半

CharXiv Reasoning

CharXiv Reasoning:科学论文图表问答,88.7%,GPT-5.1 是 80.3%

ScreenSpot-Pro,GUI 截图理解,86.3%,GPT-5.1 是 64.2%

此外,一个很明显的区别是:空间位置理解更强了 官方放了个主板识别的对比:给一张低质量的主板图片,让模型标注各个组件的位置

GPT-5.1 只能标几个,位置也不太对

GPT-5.1 主板识别

GPT-5.2 能准确标注各个组件,位置基本对

GPT-5.2 主板识别

长文档

OpenAI MRCRv2,测的是长文档中多个信息点的整合能力

在文档里插入多个相同的「针/needl」,然后问模型第 n 个针的内容是什么

4 needle 变体,GPT-5.2 Thinking 在 256k token 长度接近 100%,GPT-5.1 在同样长度只有 30% 左右。这是第一个在 4-needle 变体上达到接近 100%(256k)的模型。

长上下文 4 needles

8 needle 更难,GPT-5.2 也有显著提升

长上下文 8 needles

API 还支持新的/compact端点,可以扩展有效上下文窗口,适合工具多、跑得久的任务

工具调用

Tau2-bench 测的是多轮对话中的工具使用,模拟客服场景

Telecom 领域,GPT-5.2 Thinking 98.7%,GPT-5.1 是 95.6%

Retail 领域,82.0%,GPT-5.1 是 77.9%

工具调用

官方举了个例子 用户说:我从巴黎飞纽约的航班延误了,错过了转机去奥斯汀,行李也丢了,需要在纽约过夜,还有医疗原因需要前排座位

GPT-5.1 漏了好几步

GPT-5.1 工具调用

GPT-5.2 一次性处理完:改签、特殊座位、赔偿,全部搞定

GPT-5.2 工具调用

数学和科学

AIME 2025 100%,满分,无工具 HMMT 2025 年 2 月 99.4%,Pro 版 100% GPQA Diamond 92.4%,Pro 版 93.2% FrontierMath Tier 1-3 40.3%,Tier 4 14.6% HLE(Humanity’s Last Exam)34.5%(无工具),45.5%(有工具)

数学&科学

ARC-AGI 是测抽象推理的

ARC-AGI-1,GPT-5.2 Thinking 86.2%,Pro 版 90.5%,第一个突破 90%

ARC-AGI-2 更难,GPT-5.2 Thinking 52.9%,Pro 版 54.2%,GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%

ARC-AGI

幻觉

在 ChatGPT 真实用户查询上测试

有错误的回复比例从 8.8% 降到 6.2%,相对减少 30%

幻觉率

价格

涨了 GPT-5.2 比 GPT-5.1 贵 40%;GPT-5.2 Pro 的价格,一如既往的贵到离谱

每百万 token 价格

官方解释:虽然单价更高,但 token 效率更高,达到同样效果的总成本反而更低

ChatGPT 订阅价格不变

可用性

ChatGPT 今天开始向付费用户推送:Plus、Pro、Go、Business、Enterprise

如果还没看到,过几天再试,GPT-5.1 在 ChatGPT 中还会保留三个月,之后下线

API 已经上线:

  • gpt-5.2:Thinking 版
  • gpt-5.2-chat-latest:Instant 版
  • gpt-5.2-pro:Pro 版

在 PlayGround 里面,可以看到这些模型

新增 xhigh reasoning effort,适合对质量要求最高的任务 GPT-5.1、GPT-5、GPT-4.1 在 API 中暂时不会下线 Codex 优化版即将推出

安全

延续了 GPT-5 的 safe completion 研究

在自杀、自残、心理健康、情感依赖等敏感对话上的表现改进了

安全性评估

开始部署年龄预测模型,18 岁以下用户自动限制敏感内容

官方说过度拒绝的问题还在改进中

最后

本次发布的内容

Code Red 一周后,GPT-5.2 发布,三个版本

性能更强,价格更贵

今天开始向付费用户推送,API 已上线

作者:灵山下的小妖怪

]]>