GPT-5.4 – 青瓜传媒

GPT-5.4遇上OpenClaw，借你像素眼，许我Root权

青瓜传媒 — Tue, 10 Mar 2026 01:10:51 +0000

GPT-5.4的到来彻底改变了AI操控电脑的方式，从依赖API解析升级到像素级视觉映射，让OpenClaw这类本地Agent拥有了真正的“眼睛”。这不仅解决了老旧系统操作难题，更通过动态加载和可打断思考机制，大幅降低算力成本并确保执行安全。本文将深度解析这一技术跃迁如何重塑数字替身的应用边界。

一、Native Computer Use，终结 OpenClaw 的“盲人摸象”

过去，那些号称能操作电脑的RPA或者再早一点的agent，底层依赖的是什么？是解析软件的 DOM 树（网页结构）或者操作系统的无障碍接口。

这就导致了一个致命问题如果遇到没有标准API的老旧 ERP 系统、基于特定框架开发的行业软件，或者一张纯粹的图片，AI 就彻底瞎了。它只能靠死板的脚本或者猜测坐标去点击，“盲人摸象”来形容再合适不过了。

1. GPT-5.4的手术刀：从“解析代码”到“像素级视觉映射”

GPT-5.4 带来的Native Computer Use，也就是原生电脑操控，本质上是把AI对UI的理解方式，从“看底层代码”拽到了“看屏幕像素”的维度。

它不再需要你去喂给它软件底层的接口协议，而是像人眼一样，直接截取屏幕画面，通过原生的视觉-动作映射，识别出屏幕上的输入框、按钮、下拉菜单，然后直接输出精准的坐标和鼠标动作。

这就解释了为什么它能在 OSWorld（真实桌面环境导航基准测试）中拿下 75.0% 的成绩，一举跨越了人类的及格线。这不是算力的暴力美学，而是感知模态的领先。

2. OpenClaw 的痛点，空有一身武力，奈何没有眼睛

我们再来看 OpenClaw。作为一个开源的本地 Agent 平台，OpenClaw 最变态的地方在于它的“系统级控制权”。

它作为一个本地守护进程，拥有读写你本地文件、调用终端、收发网络请求的最高权限。它有最强壮的“四肢”，但是模型没法给它提供“眼睛”。

如果你在飞书里对 OpenClaw 说：“帮我把桌面上那个财报 PDF 里的核心数据，填进咱们公司那个5年前的老旧财务软件里。” OpenClaw知道要干活，但它调用的旧模型无法理解那个老旧软件的非标准界面，最后往往是胡乱点一通坐标，不仅填错数据，甚至可能触发系统的报错机制，翻车率极高。

3. 当“视觉皮层”接管“最强四肢”

GPT-5.4 的发布，对 OpenClaw 来说，就是装上了超强的视觉皮层。

现在的执行工作流是极其硬核且优雅的

指令接收，你通过飞书给OpenClaw发送指令。
环境感知，OpenClaw 立即调用本地截屏工具，将当前桌面状态（哪怕是极其复杂的 3D 软件或老旧系统界面）作为环境状态，打包扔给 GPT-5.4。
视觉决策，GPT-5.4 原生理解画面，直接返回操作指令，将鼠标移动至坐标，双击，输入‘Q3 营收’”。
物理执行，OpenClaw接收指令，利用本地权限精准执行键鼠操作，并再次截图验证。

闭环完成了。

这使得 OpenClaw 彻底摆脱了对软件 API 接口的依赖。只要是人类能在屏幕上看到并操作的软件，OpenClaw 结合 GPT-5.4 就能直接操作。这就是从“指令级调用”向“物理级接管”的跃迁。

二、动态加载，治愈MCP架构的“Token 破产症”，成本暴降

技术再牛逼，如果跑不通商业模式和个人财务模型，那就是个昂贵的玩具。在GPT-5.4之前，你想让OpenClaw成为一个真正的“全能管家”，你的钱包大概率会先崩溃。

1. OpenClaw 的致命伤，被塞爆的上下文窗口

OpenClaw 为什么能挂载那么多本地能力？因为它底层深度集成了 MCP，也就是模型上下文协议）。这个协议是个好东西，它统一了AI调用外部工具的标准。

但过去的模型有一个极其愚蠢的机制：静态全量加载。如果你给 OpenClaw 挂载了 50 个插件（比如日历、邮箱、终端、文件搜索、天气、股票查询等），为了让 AI 知道它能干嘛，系统必须把这 50 个工具的 JSON Schema（详细的参数定义和描述）全部硬塞进 System Prompt 里。

这就导致了一个极其荒诞的现象：你在飞书里只跟 OpenClaw 说了一句“早安”，系统在后台却要把高达 20,000 Token 的工具说明书连同你的“早安”一起发给大模型。每次对话，不管用不用得上工具，都在疯狂燃烧过路费。响应慢不说，一天聊下来，几十美金的 API 账单直接让你患上“Token 破产症”。

2. GPT-5.4 的手术刀：白菜价底座 + 延迟加载（Tool Search）

GPT-5.4 这次不仅在能力上拔高，更是在商业策略上祭出了“双重杀”。

第一重杀，极其残暴的降价。虽然大家会直接用plus或者其他订阅的额度，但还是提一下它的 API 定价，直接杀到了输入 2.50 美元 / 百万 Token，输出 15.00 美元 / 百万 Token。这个底座价格，相较于以前的旗舰模型，几乎是拦腰斩断。

第二重杀：Tool Search机制。这是 API 层面的底层重构。GPT-5.4 支持工具的“延迟加载（Lazy Loading）”。现在，你不需要在 Prompt 里塞入所有的工具定义。模型接收到你的意图后，会在向量空间中自动“搜索”并仅拉取当前任务所需的工具Schema 。官方数据显示，在复杂场景下，这种机制让 Token 消耗直接暴降 47%。

3. 无所顾忌的外挂狂魔与24小时在线的廉价劳动力

把 GPT-5.4插到OpenClaw上，发生了什么？算力成本的边际递减效应被彻底打通了。

现在，你可以肆无忌惮地给 OpenClaw 挂载 500 个甚至 1000 个 MCP 插件。当你让它“查一下明天的天气”时，底层的交互逻辑变成了这样：

1.OpenClaw 发送极短的原始指令给 GPT-5.4。

2.GPT-5.4 的 Tool Search 引擎瞬间判断，只需要用到 weather_api。

它仅仅把这一个工具的Schema拉进上下文进行调用。

剩下的 499 个工具静静地躺在硬盘里，不消耗你哪怕 1 个 Token 的算力成本。

极低的底价，加上按需加载的极简Context，治愈了开发者的“Token 焦虑”。

这意味着什么？意味着在 2026 年的今天，维持一个 24 小时高强度在线、既能帮你盯盘、又能帮你回邮件、还能接管桌面的全能私人数字替身，其单月API消耗要比之前低的多得多。

三、可打断思考（Mid-Response），给失控的 Skill 装上“物理刹车”

在 AI 真正落地到实际业务时，所有的企业客户和极客都会面临同一个灵魂拷问，“我怎么敢让它自己干活？它要是抽风把我的生产数据库删了怎么办？”

1. OpenClaw 的阿喀琉斯之踵，无法撤回的灾难链条

在 OpenClaw 的架构里，Skill 是一套串联了多个 Tool 的复杂 SOP（标准作业程序）。比如你给它写了一个高权限技能：[每周自动巡检本地服务器并清理无用日志]。

在GPT-5.4之前，执行这种长程Skill就像是在开盲盒。模型一旦接收指令开始规划，执行过程对用户来说就是一个“黑盒”。如果在中间某一步，模型产生了幻觉，比如把某个核心业务的配置文件误判为“无用垃圾”，它会毫不犹豫地调起本地终端执行删除命令。

由于缺乏中途自省和被阻断的机制，Agent 经常呈现出“脱缰野马”的状态，一旦方向偏了，就会一条道走到黑，直到酿成大祸。

2. GPT-5.4 的手术刀，“前置预案”与流式纠偏（Course Correction）

为了解决长程任务的失控问题，GPT-5.4 在 API 层面引入了一个极具极客精神的底层更新，Mid-Response，也就是可打断的思考。

这不仅仅是让对话“停止生成”那么简单。当处理多步高危任务时，GPT-5.4 引入了 Preamble（前置思考预案）机制。它会在真正调用外部系，执行不可逆的物理动作前，先流式输出它的执行规划。

最绝的是，它支持原生的动态打断与指令注入。如果在它生成预案或执行动作的间隙，你发现逻辑跑偏了，不需要粗暴地切断网络或重启软件，你可以直接在当前的Stream线程中发送中断信号，并注入纠偏 Prompt。

3. 从“开盲盒”到“灰度监控”的安全阀

我们还原一下现在的业务场景。你让 OpenClaw 执行一个极其敏感的 CRM 技能：[读取今天收到的 100 封客户邮件，删除广告，并给所有询盘邮件自动生成报价单发出去]。

过去，你发完指令就在胸前画十字，祈祷它别把 VIP 大客户的邮件当垃圾删了，或者发错底价。

现在，OpenClaw 调用 GPT-5.4，在你的 Slack 监控频道里快速刷出预案：“分析完毕。准备删除 80 封广告，给剩下 20 封发标准报价。注意，第 15 封邮件来自重要客户 A，我也将发送标准报价。”

人类介入，你一眼扫过，发现客户 A 的情况特殊，需要定制报价。你立刻在对话框敲入：“停，客户 A 单独留出来不要发，其余按原计划继续。”

瞬间纠偏，GPT-5.4 瞬间接收打断指令，它不需要你重新发送那 100 封邮件的上下文，而是丝滑地调整了后续的动作树，绕过客户 A，继续执行后续发送。

控制权，终于被牢牢按在了人类手里。

这巧妙地平衡了Agent的“高度自治”与人类的“绝对底线”。只有解决了安全信任问题，企业才敢真正把那些高价值、高风险的复合 Skill，放心大胆地交给数字员工去跑。

最后XXO的结语

最近龙虾之风日渐兴盛，更有赛博三件事，“养龙虾”，“等种子”，“打牛马”，大家似乎玩的都不亦乐乎，但是我还是劝大家悠着点，如果你是本地部署并且又是一个代码的小白的话，你很大程度上是看不懂CLI界面里的那些命令和警告的，并且其实我使用下来，限制你的虾仔的，就是skill，你如果不给他配置足够的skill，基本上就和你本地部署一个chatbot没啥区别，但是你如果一时上头去追求完全的解放双手，你可能会部署到藏着恶意的脚本的skill，这点已经有消息爆出openclaw社区里面有大量的带毒skill，这就增加了你的电脑的安全风险，你也不想有一天早上起来发现操控你电脑的不是你的龙虾而是远在异国他乡的抠脚大汉吧

尽兴固然重要，但尽兴的同时也不要忘记系好安全带。“养虾”虽爽，但别让它成了引狼入室的“特洛伊木马”。

作者：王小小

GPT-5.4：OpenAI做了个Kimi K2.5 +MiniMax M2.5？

青瓜传媒 — Mon, 09 Mar 2026 05:38:53 +0000

为了更好的追赶Claude，OpenAI带来了能力“N合1”的统一模型GPT-5.4，而看完这个模型的各种介绍和能力展示，你会发现它满满都是Kimi K2.5 和MiniMax M2.5这两个在agent上卷到疯的开源模型的影子。

01 融合了多种agent能力的all in one模型

3 月 5 日，OpenAI 正式发布 GPT-5.4。和过去那种“模型更强一点”的更新不同，这次发布的重点非常明确：把 AI 从聊天助手，进一步推向真正能交付专业工作的系统。官方同步把 GPT-5.4 上线到了 ChatGPT、API 和 Codex，还推出了 GPT-5.4 Pro，以及面向金融和表格工作流的 ChatGPT for Excel 和多家金融数据集成。

这次发布的几个核心信息：

GPT-5.4 官方定位是“面向专业工作的最强、最高效 frontier model”。它整合了 reasoning、coding 和 agentic workflow 的能力，重点强化了表格、文档、演示文稿这类专业任务。

GPT-5.4 Pro也同步推出。这是更高性能版本，面向最复杂、最长链路的任务，在 ChatGPT 和 API 中都可用。

此外，ChatGPT 里还上线了 GPT-5.4 Thinking。它支持在思考开始前给出简短计划，用户还能在它思考过程中继续补充指令，实时修正方向。

在API 和 Codex 侧，补齐了 agent 能力。GPT-5.4 是 OpenAI 首个具备原生、SOTA 级 computer use 能力的通用模型，同时支持最高 1,050,000 token 上下文窗口。

而且OpenAI 同时发布了 ChatGPT for Excel 和金融数据集成。前者能直接在 Excel 工作簿里调用 ChatGPT 做建模、更新模型、跑情景分析；后者把 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等数据接入 ChatGPT。

这里面呈现出OpenAI在模型研发思路上的明显变化：

定位彻底变了，不再主打“聊天”，而是主打“专业工作”

OpenAI 在官方博客里写得很直接：GPT-5.4 是“for professional work”。它的优化方向，不是泛泛地变聪明，而是围绕真实职业场景里的复杂产出：表格、文档、PPT、跨工具任务、长流程执行。

这意味着 GPT-5.4 的目标用户已经很明确了：不是单纯问答的普通用户，而是分析师、研究员、法务、开发者、金融从业者，以及需要复杂知识工作的团队。这个定位变化，其实比性能数字更重要。

知识工作能力明显增强，尤其是表格、文档、PPT

官方把这块作为重点展示。

在 GDPval 这个测试 44 种职业真实工作产出的 benchmark 上，GPT-5.4 的成绩是 83.0% wins or ties，相比 GPT-5.2 的 70.9% 提升明显。这个 benchmark 测的不是考试题，而是销售演示、会计表格、排班表、制造流程图、短视频等“能不能交付工作成果”。

OpenAI 还单独强调了表格建模和演示文稿能力。在一组接近投行初级分析师日常工作的 spreadsheet modeling 任务里，GPT-5.4 平均分是 87.3%，而 GPT-5.2 是 68.4%；在 presentation 评测中，人类评审有 68.0% 的情况下更偏好 GPT-5.4 的输出。

这说明它不是“更会写一段总结”，而是更接近真正能产出可用工作成品的模型。

强调它的幻觉更少，事实性更强

这是很实用、也最容易被忽视的一项升级。

OpenAI 表示，在一组用户曾标记“存在事实错误”的匿名提示集合上，GPT-5.4 的单条 claim 出错概率比 GPT-5.2 低 33%，整段回答含错误的概率低 18%。官方直接称 GPT-5.4 是他们“most factual model yet”。

这件事的重要性其实不比 benchmark 低。因为进入研究、法律、财务、企业报告这些场景之后，用户最在乎的不是模型多会炫技，而是它少说错话、少编事实。GPT-5.4 这次明显是在往“可用”和“可信”上走。

原生 computer use，GPT-5.4 开始更像真正的 agent

这次发布里，最值得行业关注的其实是这部分。

OpenAI 明确表示，GPT-5.4 是他们首个具备原生 computer-use 能力的通用模型。它不仅能理解截图，还能执行鼠标和键盘操作，在网页和软件环境中完成复杂流程。

在 OSWorld-Verified 上，GPT-5.4 成绩达到 75.0%，远高于 GPT-5.2 的 47.3%，甚至超过官方列出的人类水平 72.4%。在 WebArena-Verified 和 Online-Mind2Web 这类浏览器任务上，它的表现也继续领先。

这意味着 GPT-5.4 不只是“知道怎么做”，而是已经越来越接近“可以自己去做”。对开发者来说，这比单纯更强的文本生成重要得多。

工具调用上下功夫，用tool search 来降本很关键

如果说 computer use 决定了 agent 能不能“动起来”，那 tool search 决定了它在复杂工具生态里会不会“越用越笨”。

GPT-5.4 引入了 tool search。简单说，就是模型不需要一开始就把几十个工具说明都塞进上下文里，而是先看到轻量级工具列表，必要时再查具体定义。官方实验显示，在 Scale 的 MCP Atlas benchmark 上，把 36 个 MCP servers 放进 tool search 后，总 token 使用量下降 47%，同时精度不变。

这看起来很技术，但对 agent 落地非常关键。因为真实企业场景里的问题，从来不是“有没有一个工具”，而是“工具一多之后，模型还好不好用”。GPT-5.4 这次是在补基础设施。

改进ChatGPT 体验，更像“协作推理”，而不是黑箱等待

在 ChatGPT 里，GPT-5.4 Thinking 的体验也有明显变化。

官方帮助文档显示，当用户选择 GPT-5.4 Thinking 或 GPT-5.4 Pro 时，模型可能会先给出一个简短 preamble，说明它打算怎么做；用户还可以在它思考过程中继续加要求，修正方向。与此同时，ChatGPT 里还新增了 thinking-time toggle，Plus 和 Business 用户可选 Standard、Extended，Pro 用户可再选 Light、Heavy。

这看起来像小功能，但其实很重要。过去很多 thinking 模型虽然强，但体验像一个黑箱：你丢进去一个问题，等它想完再看结果。GPT-5.4 想解决的是“用户能不能在中途介入、协作、修正”。这对复杂研究、写作和规划类任务非常有价值。

02 “致敬”Kimi和MiniMax

看完这些能力介绍，对近期各家模型厂的模型使用和跟踪紧密的人会立刻意识到，这些点像极了Kimi和MiniMax一直在卷的重点。

这是OpenAI自己首个Computer Use模型，它的技术思路更像是用多模态和视觉的能力来完成操控任务。这很容易让人想到已经在Kimi系列模型里存在许久的内置在模型里的Computer use能力，而且在Kimi K2.5里，一个重点正是基于视觉，包括图片和视频，进行理解和推理，并且也是主打一个all in one架构，多模态和文本、思考和快速回答、代码和agent能力都统一于一个模型一身。

GPT-5.4强调的Office套件能力，也是K 2.5当时重点展示的融入模型本身的能力。展示的案例也都差不多。

而此次在Agent的调用上做的设计，比如对Tool Use引入搜索的思路，和MiniMax M2.5在训练时提出的诸如Forge等方法有相同的思路，就是探索对Agent部分和模型本身基础能力做解耦。

把Agent和它需要的环境抽象出来，与模型本身区分开，GPT-5.4给模型本身就原生配上了对各种tool的理解能力，而不是混在一起只是按指令调用。

而M 2.5也是直接把agent需要的对tool和对不同框架的理解训练进模型层面。都相当于在模型内部去增加中间层，进而给Scale的方向提供新可能。

“把编程、Computer use、工具调用等各种agent的能力原生揉进一个统一的底座模型里，并且按这个方向不停往模型里增加新的像是文档和office这种非常具体的agent能力”，这一直是Kimi和MiniMax的模型方向，这样的路线和能力在过去似乎并不被OpenAI重视，GPT模型和agent分的比较开，但现在它也算致敬这两个开源模型，改了思路。

这背后很重要的一个变量自然就是OpenClaw：这个已经疯狂破圈吸引各种用户用它“燃烧”token的产品，需要的正是Kimi和MiniMax这种模型。在从一众对手手上抢夺“招安”了OpenClaw后，此次的GPT 5.4也有明显要抢更多OpenClaw用户的模型生意的意味。

03 更多具体案例

1）金融分析：直接进 Excel，开始接手表格工作流

OpenAI 这次专门同步发布了 ChatGPT for Excel。官方定义很明确：这是一个还在 beta 阶段的 Excel 插件，可以把 ChatGPT 直接带进工作簿里，帮助用户构建和更新模型、运行情景分析、根据单元格和公式生成输出。它由 GPT-5.4 驱动。

这意味着 GPT-5.4 不再只是“给你讲怎么做 Excel”，而是开始直接进入 Excel 工作流本身。对于金融分析、投研、企业 FP&A、咨询等岗位，这个方向非常清晰：OpenAI 不只是想做聊天机器人，而是要切进日常生产工具。

同时，OpenAI 还把 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等金融数据源接入了 ChatGPT，让用户在一个工作流里完成数据获取、分析和输出。

2）法律工作：长合同、复杂交易分析更稳

OpenAI 在官方博客里引用了 Harvey 的反馈。Harvey 表示，GPT-5.4 在其 BigLaw Bench 上拿到 91%，并且在复杂交易分析、长合同中的准确性保持、以及法律从业者要求的细节密度上，表现优于其他模型。

这说明 GPT-5.4 的提升，不只是写作更顺，而是开始进入对“结构、严谨性、细节一致性”要求更高的文档密集型工作。

3）网页和软件操作：可以自己点、自己做、自己验证

在 computer use 场景里，OpenAI 展示了 GPT-5.4 根据浏览器截图进行界面理解，并通过坐标点击来发送邮件和安排日历事件的能力。

官方还引用了 Mainstay 的测试结果：在大约 3 万个 HOA 和 property tax portals 的 computer-use 评测中，GPT-5.4 首次尝试成功率达到 95%，三次尝试内达到 100%，同时速度约快 3 倍，token 使用量减少约 70%。

这个案例很能说明 GPT-5.4 的方向：不是回答“怎么填表”，而是直接去填表。

4）编码和前端：不只是会写代码，还更会完成完整产品

在 coding 部分，OpenAI 说 GPT-5.4 继承了 GPT-5.3-Codex 的强编码能力，同时在长时程任务里更好，因为它可以调用工具、迭代执行、自己把工作往前推。它在 SWE-Bench Pro（Public）上达到 57.7%，略高于 GPT-5.3-Codex 的 56.8%。

更有意思的是，OpenAI 强调 GPT-5.4 在复杂前端任务上表现明显更好，产出的结果既更美观，也更可用。官方还演示了它结合 Playwright Interactive 一边构建网页/应用，一边自己进行可视化调试和测试。

这意味着 GPT-5.4 的“编码能力”已经不只是代码补全，而更接近完整的软件生产链路。

官方案例：使用 GPT-5.4 根据一个略微指定的提示制作的主题公园模拟游戏，通过 Playwright Interactive 进行浏览器测试和图像生成来构建等距资产集。该模拟游戏包括基于瓦片的路径放置、游乐设施和景观建设、游客路径规划、排队和游乐设施循环，而公园指标如金钱、游客数量、幸福度、清洁度和评分会根据布局表现和游客的反应而上升或下降。Playwright 被用于自动化浏览器测试，通过建设和扩展公园、放置和移除路径和游乐设施、检查摄像机导航，并验证在多轮测试中游客、排队、游乐设施状态和 UI 指标是否正确更新。

04 价格和使用方式

API 文档显示，GPT-5.4 支持文本和图像输入、文本输出，拥有 1,050,000 token context window 和 128,000 max output tokens。价格为每百万输入 token 2.50 美元、输出 15.00 美元。

而 GPT-5.4 Pro 在 ChatGPT 侧只向 Pro、Business、Enterprise 和 Edu 计划开放。帮助文档也写得很明白，Pro 是“the highest-capability GPT-5.4 option in ChatGPT for the hardest tasks and long-running workflows”。

这些价格还是挺贵的。

在模型上，OpenAI开始借鉴开源模型们的方法，而在价格上，OpenAI还是OpenAI。

作者：周华香+GPT5.4 Thinking 编辑：王兆洋

来源：硅星人Pro