OpenAI模型 – 青瓜传媒

OpenAI最新生图模型实测

青瓜传媒 — Fri, 19 Dec 2025 01:10:57 +0000

GPT Image 1.5的AI味儿，还是有点浓。

OpenAI的Nano Banana Pro平替，来了？

智东西12月17日报道，今天，OpenAI推出了其新一代图像模型GPT Image 1.5。这一代模型具备更强的指令遵循，更精准的图像编辑，也能较好的保留细节，生成速度则来到上一代模型的4倍。

OpenAI官方在宣传片中集中展示了模型能力，可以看到，GPT Image 1.5将图中人物准确地融入了太空、雨林等不同背景，还在手绘、毛毡等不同风格间保持了人物一致性。

与此同时，OpenAI还在ChatGPT中推出了独立的图像生成板块，提供各种模板、风格，让创作更为便捷

这些更新解锁了不少新玩法。OpenAI创始人兼CEO Sam Altman晒出了自己用GPT Image 1.5打造的“消防员写真年历”。

不过，有网友发现图中的日历根本不准，还有好多网友劝Altman赶紧把这有点辣眼睛的照片删了。ChatGPT的官方账号实在忍不住，直接用GPT Image 1.5给Altman穿上了T恤衫。

OpenAI官方暂时没有公布任何基准测试，不过在权威大模型测评网站Artificial Analysis上，GPT Image 1.5登顶文生图和图像编辑两大榜单，均超越了谷歌的Nano Banana Pro。

在LMArena大模型竞技场上，GPT Image 1.5同样霸榜文生图和图像编辑两大榜单。

GPT Image 1.5按token定价，价格取决于分辨率和质量设置。高质量一百万像素图像的价格约为每千张133美元（约合人民币937元），低质量每千张9美元（约合人民币63元）。所有ChatGPT用户今天都能用上这款模型，其API也已经同步推出。

GPT Image 1.5的技术实力究竟如何？发布后，已有不少网友对比了GPT Image 1.5与Nano Banana Pro的生成效果，智东西也对两款模型的能力进行了体验。

我们的感受与许多网友类似：虽然GPT Image 1.5是一款不错的图像生成模型，但它在真实度和细节准确度上，似乎仍与Nano Banana Pro存在明显可感的差距。

01.生成效果“油腻感”明显，网友直呼OpenAI“彻底完蛋了”

首先来看看GPT Image 1.5的文生图能力。我们的第一则提示词考察了模型在复杂场景和多主体关系下的表现：

一幅超写实风格的画面：雨夜的东京街头，霓虹灯映照在湿漉漉的路面上。前景是一位穿着透明雨衣的年轻女性，手持发光的全息伞；中景有一辆正在缓慢行驶的出租车，车窗内可见司机的侧脸；背景是高楼林立的城市天际线与模糊的人群。电影感构图，浅景深，4K细节。

在生成速度上，Nano Banana Pro更胜一筹，耗时大概15秒完成输出，这包括其思考的过程。可以看到，Nano Banana Pro对复杂提示词中的细节做到了准确还原，不过没有理解“发光的全息伞”这一细节。画面中，出租车和街道的细节都做到了准确的还原。

随后GPT Image 1.5也给出了生成结果，第一眼我们就能感受到明显的“AI味儿”。GPT Image 1.5的画风十分“油腻”，饱和度拉得很高。对于我们明确要求的“车窗内可见司机的侧脸”，GPT Image 1.5做了模糊化处理。人物和背景的融合也并不自然，给人一种处于两个图层的感觉。

如果仔细看，还能发现图中角色右手只有四个手指，这种基础的人体错误对一款2025年的生图模型来说，实在有点不应该了。

接下来的提示词，主要考察模型在风格迁移和语义约束方面的表现：

用梵高《星空》的笔触和色彩风格，描绘一座未来主义太空站的内部大厅：巨大的弧形玻璃窗外是旋转的星云和行星，室内有三名宇航员正在低重力环境中漂浮操作全息界面。保持强烈旋涡状笔触，但结构清晰、物体可辨。

GPT Image 1.5的生成依旧还是慢了半拍，不过这次我们先来看看其效果：虽然画面内容基本准确，但在最关键的强烈旋涡状笔触和色彩风格上，可以说是差强人意，与梵高《星空》原作的区别十分明显。

Nano Banana Pro的生成结果如下。可以看到，在保证细节准确的前提下，模型准确还原了梵高《星空》的画风，色彩风格也更为接近原作。

这则提示词主要考察细节一致性，画面的视角也是非常规视角，能体现模型在边缘场景的能力：

从猫的第一人称视角看到的画面：清晨的厨房，阳光从窗户斜射进来，桌面上有一杯正在冒热气的咖啡和一块咬过的面包。画面下方隐约可见猫的前爪和胡须边缘，广角镜头，温暖色调，生活摄影风格，高细节真实质感。

GPT Image 1.5在这种边缘场景出现了很严重的崩坏。首先，猫只有半张脸长了胡子，鼻子等细节全部丢失了，让人一时无法辨认这是猫脸还是一个小毛球。此外，对背景的虚化其实让图像的真实感更差了。

Nano Banana Pro的生成结果如下，凭画面能一眼判断这是我们要求的猫猫第一视角，光影还原度和细节呈现也符合我们的要求。

也有不少网友分享了对比实测的效果。同样为人物肖像，左侧由GPT Image 1.5生成的画面中，人物的头部过大，光影效果的日常感要差一些。Nano Banana Pro的生成结果虽然面部打光有点不足，窗子有点过曝，不过正是这种瑕疵让图像的真实感更好。

分享这一生成结果的网友称：OpenAI彻底完蛋了。

不过，也有网友补充道，如果在发给GPT Image 1.5提示词里加入“未经处理的iPhone照片”、“低饱和度颜色配置文件”等要求，就能让其效果更为真实。

AI博主Heisenberg分享了最近很火的巨人特效，他认为，相比之下，Nano Banana Pro的结果要自然得多。在细节方面，GPT Image 1.5出现了许多Bug，比如左侧两辆汽车直接面对面行驶，道路上的白线断断续续，Altman的手也显得过大了。

我们还测试了GPT Image 1.5生成中文的能力。在前几个字模型还保持了相对的准确度，但在之后就出现了诸多错误。

02.支持多元素融合、编辑，提供预制风格化模板

目前，GPT Image 1.5一天内提供大约5次的免费试用机会，在图像编辑任务上，我们未能进行实测。不过，OpenAI在其官方博客中分享了不少案例。

GPT Image 1.5支持多元素融合，比如下图就把OpenAI的两位高管和一只狗融合到了同一画面里，提示词要求显示出他们在生日派对上觉得很无聊，画风限定为2000年代的胶片风。不过，对于胶片风的还原，这一画面做得并不到位。

下图则体现了GPT Image 1.5在元素替换方面的表现，提示词要求把左图人物的上衣变成红色，帽子变成黄色，限速改为15，卡车变成消防车，这些都得到了不错的还原。

GPT Image 1.5还支持多样的风格迁移，有些风格只要使用预设的模板就行。

比如，可以把OpenAI的发布会，打造成老派黄金时代好莱坞电影海报风格。

把Altman的证件照变成80年代VHS健身教练风格。

或是把Altman放进2000年娃娃游戏的换装界面，所有环境都是粉色的。

03.结语：产品体验领先，模型上限仍待追赶

综合来看，在Nano Banana系列模型已经拉高用户预期的前提下，GPT Image 1.5并不是一次颠覆式的飞跃。它在指令遵循、多元素编辑、风格模板化和产品化体验上，确实体现了OpenAI一贯擅长的产品思维。尤其是深度融入ChatGPT并推出独立板块之后，图像生成的门槛被进一步拉低，创作流程也更加顺滑。

但从纯模型能力层面来看，GPT Image 1.5与Nano Banana Pro之间仍然存在肉眼可见的差距：真实感不足、细节稳定性偏弱、人体结构和复杂视角下的失误，都会在高要求场景中被迅速放大。GPT Image 1.5能否获得市场认可，仍有待观察。

作者：陈骏达，编辑：漠影

来源：智东西

OpenAI是如何发展出推理模型的？

青瓜传媒 — Wed, 06 Aug 2025 03:29:08 +0000

当全世界都在为ChatGPT的横空出世而狂欢时，你可能不知道，这只是OpenAI一次“无心插柳”的惊喜。科技媒体Techcrunch一篇最新的深度文章揭示了，OpenAI从数学竞赛走向“通用AI智能体”（AI Agents）的宏大愿景。这背后，是一个长达数年的深思熟虑的布局，以及其对AI“推理”能力的终极探索。

01、意外的起点：数学

很多人以为OpenAI的成功故事是从ChatGPT开始的，但真正的颠覆性力量，却源于一个看似与大众应用相去较远的地方——数学。

2022年，当研究员亨特·莱特曼（Hunter Lightman）加入OpenAI时，他的同事们正在为ChatGPT的发布而忙碌。这款产品后来火遍全球，成为现象级的消费应用。但与此同时，莱特曼却在一个不起眼的团队“MathGen”里，默默地教AI模型如何解答高中数学竞赛题。

“我们当时正努力让模型在数学推理上做得更好”，Lightman回忆道。而这场看似偏离主线的探索，恰恰是OpenAI发展推理模型的起点。

为什么是数学？因为数学是纯粹逻辑和推理的试金石。如果一个模型能真正理解并解决复杂的数学问题，意味着它开始具备了初步的推理能力。

回过头看，ChatGPT的成功更像一个“美丽的意外”——用内部的话说，这是一个低调的研究预览版，却意外引爆了消费市场。

但OpenAI的CEO山姆·奥特曼（Sam Altman）的目光，早已投向了更远的地方。在2023年的首届开发者大会上，他清晰地描绘了未来：

最终，你只需告诉计算机你需要什么，它就会为你完成所有这些任务。这些能力，在AI领域通常被称为智能体（Agents）。其带来的好处将是巨大的。

而那项在当年略显“低调”的工作，成果斐然。近期，OpenAI的一个模型在国际数学奥林匹克竞赛（IMO）中摘得金牌，这是全球顶尖高中生的智慧竞技场。

OpenAI坚信，这种在数学领域磨练出的推理能力，完全可以迁移到其他领域，并最终驱动他们梦寐以求的通用AI智能体。

02、“草莓”计划：引爆推理革命的关键突破

早期的GPT模型擅长处理文本，但在基础数学面前却常常“犯糊涂”。

从基础的语言处理到复杂的逻辑推理，OpenAI是如何跨越这道鸿沟的？转机发生在2023年，OpenAI通过一种创新的方法，实现了推理能力的飞跃。这一突破最初的内部代号为“Q*”，后又被称为“Strawberry”（草莓）。

其核心，是将三种技术进行了前所未有的结合：

大语言模型（LLM）：提供海量的知识基础和语言能力。

强化学习（RL）：在模拟环境中，通过“奖惩”机制（即反馈答案是否正确）来训练模型做出更优选择。这与当年AlphaGo击败李世石的技术同源。

测试时计算（Test-time computation）：给予模型更多的时间和算力去“思考”，在给出最终答案前，反复规划、验证和检查自己的步骤。

这个组合拳催生了一种全新的方法——“思考链”（Chain-of-Thought, CoT）。模型不再是直接给出答案，而是像人一样，会展现出完整的解题思路。研究员埃尔·基什基（El Kishky）在描述当时的场景时难掩兴奋：

我能看到模型开始推理了。它会注意到错误并回溯，它会感到沮丧。这真的就像在阅读一个人的思想。

这项突破直接促成了2024年秋天o1推理模型的问世。o1的出现震惊了世界，也让其背后的21名核心研究员成为了硅谷最炙手可热的人才。Meta的扎克伯格不惜开出上亿美元的薪酬包，挖走了其中五位，以组建其专注于超级智能的新部门。

03、探索AI“推理”的本质

AI真的在“推理”吗？还是只是更高级的模仿？

面对这个问题，OpenAI的研究员们表现得相当务实。El Kishky从计算机科学的角度解释：“我们正在教模型如何有效地消耗算力来得到答案。如果这样定义，那它就是推理。”

另一位研究员Lightman则更关注结果：“如果模型能完成困难的任务，那么它就在进行某种必要的、近似于推理的过程。我们可以称之为推理，但这只是为了创造出强大、有用工具的一种说法。”

非营利组织AI2的研究员Nathan Lambert用了一个绝妙的比喻：AI推理之于人类思考，就像飞机之于鸟类飞行。飞机并非通过模仿鸟类扇动翅膀来实现飞行，但它同样征服了天空。AI的“推理”机制与人脑不同，但这并不妨碍它实现相似甚至更强大的结果。

这种对终极目标的专注，而非拘泥于形式，恰恰是OpenAI文化的核心。据前员工透露，公司“一切研究都是自下而上的”，只要团队能证明其想法的突破性，公司就会倾斜宝贵的GPU和人才资源。正是这种对AGI（通用人工智能）使命的执着，而非短期产品利益的追求，才让OpenAI敢于在推理模型上进行如此巨大的投入，并最终抢占先机。

04、下一个前沿：从客观编码到主观任务

如今，AI智能体在一些定义明确、可验证的领域已经初显身手，例如帮助程序员完成编码任务。但当人们尝试让它处理更复杂、更主观的任务，比如“帮我找一个性价比最高的长期停车位”或“帮我规划一次完美的家庭旅行”时，它们往往会犯一些低级错误，或者耗时过长。

这背后的核心瓶颈是什么？Lightman一针见血地指出：“和机器学习中的许多问题一样，这是一个数据问题。”

如何训练模型处理那些没有标准答案、更偏主观的任务，是当前研究的前沿。OpenAI研究员Noam Brown透露，他们已经掌握了新的通用强化学习技术，可以训练模型学习那些不易验证的技能，IMO金牌模型就是基于此诞生的。该模型能生成多个“智能体分身”，同时探索不同解题路径，最后选出最优解。

这预示着AI的未来演进方向：从单一模型到多智能体协作，从处理客观事实到理解主观意图。

OpenAI的终极蓝图，是打造一个能为你处理互联网上任何事情、并能心领神会你的偏好的超级智能体。这与今天的ChatGPT形态迥异，但其所有的研究，都坚定地指向这个方向。

毫无疑问，OpenAI曾是AI行业的绝对引领者，但如今，它面临着来自Google、Anthropic、xAI和Meta等一众强劲对手的围剿。问题已经不再是OpenAI能否实现其“智能体未来”，而是它能否在被对手超越之前，率先抵达终点。这场关乎未来的竞赛，才刚刚开始。

作者：龙玥

来源：硬AI