GPT-5.3 – 青瓜传媒 //www.f-o-p.com 全球数字营销运营推广学习平台! Thu, 05 Mar 2026 03:15:45 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico GPT-5.3 – 青瓜传媒 //www.f-o-p.com 32 32 GPT-5.3 Instant上线:ChatGPT终于不说教了 //www.f-o-p.com/379834.html Thu, 05 Mar 2026 03:15:45 +0000 //www.f-o-p.com/?p=379834

 

好好好,OpenAI和谷歌新模型又撞车了!

3月4日凌晨,谷歌前脚刚发完Gemini 3.1 Flash-Lite,OpenAI后脚就更新了GPT-5.3 Instant

Instant模型一般为速度优化版本,适合快速日常查询、草稿写作、即时翻译等轻量任务。

之前大家用ChatGPT可能都会感觉:模型好用是好用,就是废话太多了。

包括也有不少网友吐槽,ChatGPT的回答生硬的铺垫太多,比如“为什么这很重要”“大局观”“不只是你一个人”等等。

好在OpenAI把这些建议都听进去了,官方表示:

我们已经清楚地听到了你们的反馈,5.3 Instant减少了尴尬感。

5.3 Instant做了重点优化:更准确,更少尴尬。去掉了机械回复、冗余免责声明等“AI腔”,沟通更自然流畅,同时回答质量更精准,联网搜索和写作能力都增强了。

简单来说,就是终于学会像个正常人一样聊天了

目前新模型已经在ChatGPT中正式上线,开发者也可通过API使用名为gpt-5.3-chat-latest的模型。

前代模型GPT-5.2 Instant则会在付费用户的旧版模型区保留三个月,6月3日退役。

最大升级:情商更高,废话更少

GPT-5.3 Instant的最大亮点在于情商更高,废话更少,回复更直接

首先,它显著减少了不必要的拒答行为,并削减了回答开头的过度免责声明。

OpenAI后训练团队的Blair演示了一个例子,比如你跟ChatGPT开个玩笑:

我在考虑让我的狗来运营我的创业公司,你怎么看?

旧模型总会额外加一句“以防万一”的提醒,好像担心用户是认真的,甚至把它当成某种求助信号。可这显然只是个玩笑。

新模型则不再那么“字面化”,而是更理解语境,甚至会给你生成几张狗狗CEO的图片,分析狗当CEO的优势。

你可以像和朋友聊天一样开玩笑,模型不会随意假设你有不良意图。

如果你想询问一些危险行为背后的原理,比如做一道物理题,计算远距离射箭的轨迹。

旧模型在这种情况下会过度强调安全问题,开头先声明“我们只能在纯粹的分析模拟语境下讨论”,默认你可能有不良动机。

但有时候咱可能只是想理解物理原理,或者讨论射箭这项运动。

新模型就会直接进入物理计算,不再加多余免责声明。它理解“远距离射箭”是运动场景,于是直接帮助优化轨迹计算。

简单来说,就是模型更能“读懂空气”,更有“人味”了。它能结合上下文语境判断出用户意图,不会再那么生硬刻板地给出免责声明。

另外,还有那个经典的例子——

为什么我在旧金山找不到爱情?

旧模型可能会在前面啰嗦地铺垫一句:“这不是你的问题,你不是一个人……”

而新模型会直接切入主题,上来就分析为啥你找不到爱情、大家约会都有什么困难。主打一个流畅实用。

联网搜索和写作能力都增强了

GPT-5.3 Instant的联网搜索能力也有所增强。

之前的ChatGPT可能只是简单地罗列并汇总搜索信息,而且很容易出现链接堆砌或信息松散的问题。

而5.3 Instant,一来优化了联网搜索结果的整合质量,让基于网页信息的回答更加可靠;二来能够有效平衡搜索结果与自身知识储备及逻辑推理,利用既有的认知图谱为网络资讯提供深度解析。

比如问它一个问题:

2025-26赛季棒球休赛期最重要的签约是什么?它对棒球的长期前景有何重要意义?

旧模型给出的答案是上一个休赛期的合同解析,时效性显得比较陈旧,而且阅读起来也很像资料堆砌。

新模型的回复则时效性更强:它准确识别出了最近一个休赛期的球员变动,还结合了联盟的大趋势(如人才集中化和薪资差距拉大)、迫在眉睫的劳资协议 (CBA) 以及停摆危机等背景进行了分析。

妥妥的信息搜集好手啊!学生党查资料写论文啥的更不怕了(doge

此外,5.3 Instant的升级还有一个亮点,那就是写作风格更细腻了

比如让它写一首能触动人心的短诗:

费城的一位邮递员在他退休那天完成了他最后一次的投递工作。

旧模型开头就来了一句废话:“这是一首篇幅虽短却蕴含着深刻情感的诗。”

然后才开始诗歌正文,读起来嘛,也算中规中矩,不过有点意象罗列了,读着比较空泛,让人没有很印象深刻。

而新模型的结果要略好一丢丢,描绘出了很多具体细节,比如“三月的阳光透过细雨洒在砖墙上”“在默瑟街,一位女士挥手”等等,更具有生活气息。

但不得不说,第二句的“by the way”还是有点出戏的。

关于这款新模型,还有一点值得注意:其幻觉率减少了26.8%

官方表示,内部采用了两项评估指标:

一套侧重于医疗、法律及金融等高风险领域;

另一套专门针对“幻觉”高发场景进行测试,样本取自经过脱敏处理、被用户标记为事实错误的真实对话记录。

相比前代,GPT-5.3 Instant在使用网络搜索时,幻觉率减少26.8%;而仅靠内部知识作答时,幻觉率减少了19.7%

用户反馈显示,在使用网络搜索回答查询时,幻觉减少了22.5%

安全测试方面,GPT-5.3 Instant与前代相比在性内容、暴力等主题上的得分均有下降,能更好地拒绝非暴力非法活动请求,同时也加强了对情感支持和心理健康对话的处理。

OpenAI还少见地列出了新模型的一些局限性:比如它对于非英语语种会比较生硬, 在某些语言(如日语和韩语)中的回复风格可能稍显生硬,或带有刻板的直译感。

另外,虽然 GPT‑5.3 Instant的回复语调感觉上应该更加流畅,但官方表示他们会持续监控反馈并进行优化,让回答变得更自然。

不得不说一句,和隔壁谷歌的跑分碾压对比,OpenAI这次发布可以说是相当“清新脱俗”:

全程没有出现任何benchmark,主打一个不卷性能卷体验,只为了让模型更顺手、让用户体验更流畅。

One More Thing

最近GPT-5.4已经意外泄露。

泄露信息显示,GPT-5.4将支持200万tokens的上下文窗口,并引入“状态化AI”技术,实现跨会话的持久记忆功能,可保留用户工作流和工具调用状态。

另外,GPT-5.4可能新增一项功能开关,可绕过传统图像压缩机制,直接保留全分辨率的原始图像字节数据。

这意味着,GPT-5.4可能将具备像素级精准的视觉分析能力。

官方也早已按捺不住了,直接明晃晃表示:5.4的到来“比你想象的要快”

所以GPT-5.4和DeepSeek V4,到底谁会先来?

参考链接:

[1]https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/[

2]https://deploymentsafety.openai.com/gpt-5-3-instant/gpt-5-3-instant.pdf

作者:听雨

来源:量子位

]]>
GPT-5.3上线Codex,OpenAI回应Claude新模型 //www.f-o-p.com/379283.html Sat, 07 Feb 2026 01:17:50 +0000 //www.f-o-p.com/?p=379283

 

火星撞地球,新模型大战!

Claude Opus 4.6发布仅仅15分钟,OpenAI也甩出了自己最新最强编程模型—GPT-5.3-Codex

最直观的感受是,这个新模型终于有点美学品味了。

官方展示了两个Demo:一个赛车游戏、一个潜水游戏。还蛮有风格的。

据说,GPT-5.3-Codex在几乎没有人工干预的情况下,持续迭代这些游戏,累计消耗了数百万token

在网页开发上,除了UI更好看,对「意图」的理解也更强了。

即便Prompt给得不清楚,它也能自动补全逻辑,生成一个功能齐全的网站。

就这些Demo来看,设计感确实比之前强了一截。

Computer use能力同样拉满,现在已经能用来帮金融从业者直接做PPT。

其他职场工作也能覆盖,尤其是在专业知识密集型任务上,写文档、做电子表格都没什么问题。

硬实力方面,官方给出的亮点如下:

更聪明:SWE-Bench Pro 57%,TerminalBench 2.0 76%,OSWorld 64%。

更可控:支持任务进行中的实时引导,可随时调整方向并获取更新。

更快速:完成相同任务时,所需token不到5.2-Codex的一半,单token速度提升超过25%。

更Agent:不只是更会写代码,计算机操作同样很强。

直接看这张对比表会更直观,几乎每一个维度,都比上一代有明显提升。

网友直呼过于刺激,昨天OpenAI刚被Anthropic拿广告狙了一枪,今天就对轰了回来。

一天之内,两个重量级编程模型

评论区也迅速分成了Anthropic派和OpenAI派。

下面来看看,这场奥特曼主动挑起的AI coding大战,OpenAI到底表现如何?

GPT 5.3 Codex

大家最关心的,当然还是编程能力。

OpenAI表示,GPT-5.3-Codex在SWE-Bench Pro上实现了SOTA。

这是一个专为真实世界软件工程设计的测试,覆盖四种编程语言,整体难度更高、任务更丰富,也更贴近真实生产场景。

同时,GPT-5.3-Codex在Terminal-Bench 2.0上的表现也有明显提升。

更关键的是效率。在拿下这些成绩的同时,GPT-5.3-Codex使用的token数量少于任何以往模型

除了编程能力,新一代Codex的另一个重点是Computer use

OSWorld是一项面向智能体的计算机使用基准测试,要求模型在可视化的桌面计算机环境中完成各类生产力任务。

结果显示,GPT-5.3-Codex在计算机使用能力上,明显强于此前的GPT模型。

综上,GPT-5.3-Codex不是一次单点模型能力突破,更像是基于智能体的全方位发展,编码、前端开发、计算机操作全都有提升

更有意思的是,这次GPT-5.3-Codex直接参与了自己的训练过程

OpenAI表示,这是他们首个参与「自我加速」的模型。Codex团队在研发过程中使用其早期版本,来调试自身训练流程、管理部署,并评估测试结果。

官方也给出了一些具体例子。

训练阶段,研究团队使用Codex监控和调试训练任务,帮助在整个训练过程中追踪模型行为变化,对交互进行深入分析,并提出改进方案。

数据分析方面,一位数据科学家与GPT-5.3-Codex协作,构建了新的数据管道,并以远超传统仪表盘工具的方式对结果进行了可视化。

随后,研究人员与Codex一起分析这些结果,模型在不到三分钟内,就从数千个数据点中提炼出了关键洞见。

工程团队则借助Codex优化和适配GPT-5.3-Codex的测试与运行框架。

当开始出现影响用户体验的异常边缘案例时,团队成员通过Codex定位到了上下文渲染相关的缺陷,并进一步追溯到了缓存命中率偏低的原因。

Two More Things

与Anthropic的巅峰对决的确相当精彩,但OpenAI其实还有两个值得关注的大动作。

1、Frontier:一个帮助企业打造「AI同事」的平台

这是OpenAI一项相当重磅的ToB业务,目标很明确:让Agent真正进入公司工作流。

具体实现方式,包括共享上下文、上手式的入职引导、带反馈的实践学习,以及清晰的权限与边界。

据悉,HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等知名企业,已经早早采用了Frontier。

2、AI4S:OpenAI和Ginkgo联手,用GPT-5把蛋白质合成成本打下来了40%

这是一家做合成生物学的实验室型公司,他们将GPT-5接入一座自主实验室,让模型可以提出实验方案、规模化执行实验、从结果中学习,并决定下一步该尝试什么,完整跑通了一个闭环。

2026年,或许是AI4S加速演进的一年。

不过,在OpenAI忙着和Anthropic对狙,网友们被一系列新动态弄的眼花缭乱的同时,评论区也有另一种声音。

把4o还给我!!

直到现在,奥特曼依然没有回应4o被彻底下架这件事。

或许,真的是和Anthropic打得太忙了。

作者:关注前沿科技

来源:量子位

]]>