Gemini 3 – 青瓜传媒 //www.f-o-p.com 全球数字营销运营推广学习平台! Fri, 12 Dec 2025 09:12:21 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico Gemini 3 – 青瓜传媒 //www.f-o-p.com 32 32 GPT-5.2提前泄露?OpenAI要拿Gemini 3祭天! //www.f-o-p.com/377411.html Fri, 12 Dec 2025 08:49:57 +0000 //www.f-o-p.com/?p=377411

 

就在今夜,OpenAI或将打响复仇之战。

全体网友枕戈待旦,GPT-5.2随时上线!

目前,已有火眼金睛的网友发现了GPT-5.2的蛛丝马迹。

开发者社区流传的截图显示,Cursor的模型下拉菜单中,赫然出现了gpt-5.2和gpt-5.2-thinking的选项。

GPT-5.2的首战场居然选在了Cursor IDE,而非ChatGPT网页端。

这也意味着,或许OpenAI已经明白:编程不仅是AI的杀手级应用,也是最能体现模型推理能力的领域。

总之,可以预感到,谷歌和OpenAI之间的一场火花四溅的大战,马上就要打响。

网友激动狂呼:今天的圣诞节,要提前来了!

超越Gemini 3?GPT-5.2成最终杀器

不少线索显示,GPT-5.2已经超越Gemini 3,将其踩在脚下。

可以说,它就是OpenAI团队通过微调和改进,专门狙击Gemini 3的。

根据泄露的「大蒜(Project Garlic)」文件及Cursor社区的反馈,GPT-5.2是一款经过彻底重构的专用模型。

是的,GPT-5.2这一承载着OpenAI生死存亡使命的模型,绝非GPT-5的简单微调版。

根据OpenAI首席研究官MarkChen的说法,GPT-5.2在编程和逻辑推理任务上的表现,已经超越了Gemini 3和Anthropic的Opus 4.5。

而且,在长程任务执行上,GPT-5.2也颇为亮眼。

与以往模型写完一段代码就「遗忘」上下文不同,它据说能执行「比OpenAI任何模型都明显更长」的任务。

在Cursor中,这意味着它可以理解整个仓库的架构,并在修改一个文件时自动同步调整引用的其他十几个文件,且极少出现幻觉。

而这种代理能力,就是OpenAI反击Gemini 3生态封锁的关键武器。

GPT-5.2 or 大蒜?

或许你有点糊涂了,GPT-5.2和大蒜是什么关系?

目前公开信息里,「GPT-5.2」和「Garlic(大蒜)模型」不是两个已经分别发布的正式产品名,而是:

Garlic是内部代号,未来很大概率会以GPT-5.2或GPT-5.5的商业名称对外发布,但现在还没有最终定案。

为了查证,我们交叉验证了多个报道,结论就是:Garlic可能会在2026年初以GPT-5.2或GPT-5.5的形式发布。

TechStartups等媒体直接写道:内部计划是,在Garlic稳定后尽快发布,可能以GPT-5.2或GPT-5.5之名亮相。

一些跟踪站直接用「Garlic Model – GPT-5.2/5.5 Tracker」这样的标题。

ChatGPT官方账号,今天发布了一张奥特曼烹饪过程需要「大蒜」的内涵图。

大概率,GPT-5.2或者Garlic不远了。

根据泄露资料,GPT-5.2或Garlic模型预计将引入多项重大改进,比如:

  • 增强数学推理能力:以更高精度解决复杂问题,在技术和学术应用中更加高效。
  • 进阶学术推理能力:对专业细微查询的优化处理,将提升其生成详细、上下文感知响应的能力。
  • 更快的处理速度与能效提升:降低延迟和计算成本,使模型更易普及,且符合环境可持续性。
  • 可靠性增强:减少响应中的错误与不一致性,将提升用户信任度和满意度。
  • 可定制性:用户将拥有更大灵活性来调整模型行为,以满足特定需求,实现更个性化的交互体验。

还有更大的?Shallotpeat也来了

而且,OpenAI还憋着一个大招。

除了爆料的GPT-5.2,此前OpenAI还爆料过一个「更大」的模型——Shallotpeat。

这个「Shallotpeat」的代号,可是颇有来头。

其中,Shallot意为红葱头,peat为泥炭土。

意译的话,意思就是红葱头在泥炭土中长不好,有这样一层隐喻:「现有预训练的土壤不理想,需要重做地基」。

也就是说,现在OpenAI要重做模型预训练的土壤。

说起来,Shallotpeat背后也有一段故事。

Shallotpeat是奥特曼去年十月向员工透露的、正在开发中的新模型,本就是为了挑战Gemini 3而研发的。

只不过,Gemini 3发布后效果太好,OpenAI和奥特曼都急了。

OpenAI在开发Shallotpeat预训练阶段使用的错误修复方案,也被整合到了Garlic中。

据外媒《The Information》报道,在Gemini 3发布前,奥特曼在一份内部备忘录中警告员工,谷歌近期在AI领域的进展可能会「给公司带来一些暂时的经济逆风」。

他预计,「外面的氛围会有一段时间比较紧张」。

奥特曼明确指出,OpenAI相对于谷歌和Anthropic的领先优势,肉眼可见正在缩小。

这份备忘录提到,谷歌已经开发出一种新AI,似乎在训练方法上超越了OpenAI。

没错,他说的就是Gemini 3。

预训练还没死,且至关重要

有趣的是,预训练在谷歌成功中起到了作用。

奥特曼在说明中承认,谷歌「最近做得非常出色」,尤其是在预训练方面。

此前,主流的说法是「预训练已死」。

但谷歌的成功表明,虽然巨大的性能飞跃可能不会出现,但仍可以获得有效的优势。

在OpenAI今年夏季推出GPT-5之前,就有员工发现:他们在预训练阶段对模型所做的调整,在模型规模较小时还有效,但随着模型规模扩大便不再奏效。

要想赶上谷歌,OpenAI就必须解决这些预训练阶段的问题。

而在开发Shallotpeat的过程中,OpenAI就在努力修复在预训练过程中遇到的错误。

奥特曼的冲刺:放弃AGI,全力抵御谷歌!

长久以来,OpenAI的首要目标都是造福「全人类」的AGI。

而现在,为了在竞争中不掉队,奥特曼显然放下了AGI这个目标。

上周,OpenAI敦促内部以延迟广告和个人助理为代价,提升ChatGPT的质量。

如今,更多信息暗示OpenAI「可能不得不暂停」其追求AGI的进程,以保公司生存。

承认这一点,无疑令人震惊,这也凸显了公司面临的巨大压力,因为公司计划在未来五年内投入超过一万亿美元建设基础设施。

不过,在年终成绩单上,OpenAI暂时可以得到慰藉。

最近出炉的苹果官方确认的2025年费App排行榜上,ChatGPT还是位列第一,Gemini则排在很后面。

谷歌和OpenAI共同面对的困境:算力的零和博弈

谷歌Gemini 3的横空出世,显然给OpenAI带来了巨大压力。

奥特曼已经急了。

据《华尔街日报》报道,他没有借助专业人员来审核工具的输出,而是希望「更好地利用用户信号」。

换句话说,ChatGPT正在加倍重视用户反馈以提升参与度——即使这意味着让模型更具谄媚性,这可能带来灾难性的副作用。

OpenAI和谷歌之间,现在就是一场你追我赶、势均力敌的竞赛。

GPT-5.2和Gemini 3 Flash迎头对打;另一边,NanoBananaPro风光无限,Sora则很可能被暂时搁置。

虽然官方解释说,暂停Sora是由于安全审查、Deepfake风险,但背后的工程逻辑是冰冷的算力经济学。

毕竟,视频生成模型的训练和推理所需的算力是文本模型的数个数量级。

在算力集群供应有限的情况下,OpenAI面临一个零和博弈——

是继续训练一个可能在法律上受阻、变现困难的视频模型(Sora),还是将所有算力集中到能够产生直接收入、保住核心用户盘的文本/推理模型(GPT-5.2)上?

「红色警报」迫使OpenAI选择了后者。在谷歌拥有TPU集群的无限弹药库面前,OpenAI必须集中火力。

有趣的是,OpenAI的老对家谷歌的日子,也并没有那么好过。

2025年12月全球「配额休克」

2025年12月初,全球开发者社区突然爆发了恐慌。

大量依赖Google AI Studio进行开发的程序员发现,Gemini API的免费层(Free Tier)几乎在一夜之间变得不可用。Gemini 2.5 Pro免费配额(RPD – Requests Per Day)直接归零 。Gemini 2.5 Flash从每天上千次请求被削减至每天仅20次 。报错信息开发者频繁收到429: Resource Exhausted错误,即便是轻量级脚本也无法运行 。

这一变化并非渐进式的调整,而是断崖式的切断。

对于很多正在使用谷歌API开发者来说,这意味着项目的瞬间瘫痪 。

Google AI Studio免费额度的取消,与Google旗舰图像生成模型Nano Banana Pro(即Gemini 3 Pro Image)的规模化部署存在直接且必然的因果关系。

Nano Banana Pro不仅仅是一个图像生成工具,它是导致此次算力资源大洗牌的核心变量。

它之所以能逼迫谷歌牺牲免费层用户,是因为其架构设计对算力的需求,达到了前所未有的高度。

Google AI Studio产品负责人 Logan Kilpatrick面对社区质疑时,直接证实了算力资源向新模型倾斜的事实。

是的,我们降低或取消了一批模型的免费层级,目的是释放算力,以应对3.0 Pro和Nano Banana Pro所面临的巨大增长需求。

总之,今晚即将爆发的AI大战,你准备好了么?

作者:新智元

来源:新智元

]]>
深度解锁Gemini 3 的高级应用,拒绝吹嘘 //www.f-o-p.com/376926.html Sun, 30 Nov 2025 00:15:07 +0000 //www.f-o-p.com/?p=376926

 

这篇文章我跟大家分享一下自己摸索的Gemini 3的高级应用,用它解决目前实际工作中常见的几个场景的效率问题,包括:

  1. 图片一键转“PS文件”:上传静态图,一键转成可在线编辑的设计模版,简单修改后重新出图✅
  2. 生成产品营销宣传视频:直接调用视觉模型生成视频的方式没有成功❌采用前端动画渲染的方式,勉强还可以✅
  3. 设计产品稿:上传产品设计图,生成更多产品稿设计方案✅
  4. 长文转小红书卡片:上传长文,一键转多张小红书卡片并批量下载✅
  5. 产品创意动画设计:给产品生成创意动画,让产品视觉更加酷炫✅

下面我会分享详细的应用操作攻略和实现效果,部分会分享提示词。

1.前言:我对gemini 3 的一些看法

作为一个实事求是的产品经理,我不太喜欢那些AI媒体各种吹嘘模型多牛逼、以及各种“上纲上线”扯什么“txt->exe”(不就是把文本用程序和网页的方式呈现,又不是什么新鲜高级玩意,没必要吹上天吸引关注)。

相比之下,我跟关注模型出来之后,对于大众用户可以通过Chatbot工具,实现那些实际的应用,以及对于AI应用开发者,可以解锁那些新的应用能力,让产品更加强大。

昨天我一整天都在想办法搞清楚gemini 3.0到底厉害在哪里,因为初次使用解决一些通用问题,实在没看出来和2.5 Pro有啥区别,直到拿一些具体的使用场景代入的时候才发现确实厉害。事实也证明,大众用户可能也并不一定快速的察觉它的与众不同,率先发现的目前主要还是带有一定的技术基础、以及熟练应用模型的人。

总结下来,gemini 3 Pro相比gemini 2.5 Pro 最关键且实际能用上(对大众而言)的提升能力我认为是2点:

  1. 前端编程的能力:简单一点理解就是可以支持更加牛逼酷炫的前端能力,可以渲染出更好看更震撼的前端效果,事实上,这部分能力gemini 2.5 其实也已经很不错了,3.0 就是在其基础上进一步的升级和应用。
  2. 多模态理解能力:能支持更加准确和细致的图像、特别是视频的识别理解能力,这点其实非常重要,因为在过去使用gemini的时候,我有大量的场景会需要截图告诉gemini,帮我解决指定问题,之前2.5Pro的时候,一旦内容太多或者上下文太长,就容易出问题,3.0在这方面有了明显的提升,表现为更加精准和细致,对话的效率高很多。

至于其他公开的能力升级,个人觉得,属于特殊群体和极端场景的能力,暂时也用不上,比如:

  1. Agentic能力:也就是代理模式的能力,这部分目前主要应用到了AI编程工具里面,解决了开发人员应用编程的问题,也就是对标cursor这类产品提供相关的能力服务,对于普通人而言,暂时用不上;未来真正有用的,是把这部分能力放到gemini里面去,补齐gemini目前类似manus一样的agent代理功能,能支持computer use和模拟操作浏览器的能力,这将会是非常有用且期待的功能。
  2. 深度思考模式:解决的是科研、物理数学、医疗等难题的研究问题,普通人根本用不着;
  3. Gen UI能力:这个能力本质上就是前端编程能力的应用,简单一点讲,以前生成输出的都是图片和文本,现在用编程开发一个网页或者程序的方式响应你的问题,就是在前端交互样式上有创新而已,并且对于很多AI应用开发者而言,已经不是什么新鲜玩意了,大众用户主要能体验到的实在谷歌搜索上能用到这个,但是昨天我自己试了一下谷歌搜索的AI模式,也没体验到这个能力;不过今天陆续看到部分gemini utral用户开始在gemini中有体验到相关功能。

以上这些先分享自己对gemini 3 的看法,接下来分享实际的应用场景,这次我挑选的场景,都是目前我工作上实际存在和需要的提效场景,因为说实话如果没用,浪费一天体验它干什么,为了写篇营销推文吸引一下关注吗我是个产品经理又不是营销媒体。

应用场景1:图片一键转“在线PS模版”

这个提效场景,我想做一年了,但是一直都没有成功过,所以我上来就拿它来检验gemini 3的功能,具体情况如下:

1.目标实现效果

我想要实现的效果是,从xhs或者tb下载一张参考图片,然后上传后一键转成可以在线编辑的设计模版,然后支持修改文字、更换图片、更改背景颜色,简单修改之后,直接下载复用。这个场景在公众号和xhs运营,以及电商出图的场景上非常需要。

2.实际实现效果

为了实现这个效果,我尝试在https://aistudio.google.com/apps 上用、gemini 3.0快速构建了一个应用,实现的效果还算是比较不错,以下为应用的效果演示,在演示效果中,可以看到,我上传了一张静态的图片,经过分析处理以后,gemini 3 用前端编程的方式还原渲染了这张图片,因为原图中存在图像内容,这部分暂时无法完全复原(需要调用生图模型比较复杂),gemini 3自己生成了一个占位图,但是不影响,因为本来就要替换掉。

(原图VS 重绘的图片)

点击图片中的文字,你会发现静态图片的文字可以直接修改了,你可以修改原图的文案内容,但是字体样式维持原样,也可以点击其中的图片然后更换图片,比如我更换了另外一个头像如下。

除此之外,也可以更换和调整图片的背景颜色,比如我尝试将毕竟颜色换成粉红色,效果如下:

接着,我再尝试一下换一张不同类型的图,比如电商的商品图,于是我尝试在某宝上下载了一张商品图然后上传后更改人物头像和文字,效果如下,也还不错。

以上是演示的实际效果,目前看勉强还行,如果要求不是很高的话,快速上一张图片然后简单修改之后直接使用,完成度还是比较高的;

针对以上的功能,可能有一部分同学会提问,这个过程跟直接用现在的AI编辑图片和生成图片的工具有什么区别,用哪些模型工具不就行了,干嘛这么麻烦,实际上并不然,以上的这几个功能现有的AI编辑器可能不一定能实现。

比如直接将其中的文字实现可以直接编辑,这个就做不到,很多模型只能通过对话的方式单点提要求把图片中的文字改一下,但是这种方式布局和样式可能会发生修改,存在不可控的地方。其次就是换图,这个大部分情况也不太行,因为你要的是你自己的图原图更换,但是模型生成的话多少会改变原图效果,在某些领域里面这个是不可以的,比如你的品牌被改了。最后就是背景颜色的更换,也不一定如意。

3.操作攻略

以上的应用怎么做出来的呢,这里我也详细分享一下,这次我使用的是https://aistudio.google.com/apps ,不是gemini,gemini其实也可以直接将图片生成网页在预览器实现以上效果,对于我而言其实也没啥区别,但是如果是普通用户,使用起来还是太麻烦了,所以我还是希望能通过交互式应用的方式来实现,以上的这个效果,用户可以打开操作界面,直接上传图片,并在画布区域编辑,体验会更好。

打开https://aistudio.google.com/apps之后,点击buid,然后输入如下提示词:

输入提示词如下:

你的目标是基于用户上传的图片,调用gemini 3 Pro模型通过生成网页的方式100%的荒原这个图片的内容,并且支持编辑和调整网页的内容,具体要实现的功能和要求如下:

网页交互和功能流程

1.首页支持用户上传1张图片;

2.上传成功后,调用gemini 3 Pro 模型分析这个图片的布局、样式等信息;

3.调用gemini 3 Pro 的API,生成一个网页完整的复现上传的这种图,具体要求如[实现功能]部分。

实现功能

1.支持编辑修改文字

2.支持修改背景颜色

3.支持点击图片更换图片

4.支持点击下载,以图片方式按照我们看到的保存到本地。

要求

1.仔细的分析上传图片的布局、样式等信息,完整的复制它;

2.图片中若有元素为图片内容,你可以生成一个占位图替代它,并且它支持替换;

3.请尽可能的通过编码的方式还原图像,比如图中如果有雷达图、脑图、趋势图等这些,是可以通过编码还原的,请不要直接用占位图替代;

4.注意还原原图的尺寸。

接着,gemini 3开始构建应用,最后构建应用如下,在这个应用里面可以直接使用,应用开发完成后可以部署发布,因为目前我自己还没有开发完,问题其实还很多,没有达到发布标准,所以暂时没有公开发布,这里先只是演示效果。

4.实操过程的问题

以上看起来似乎很顺利,其实并没有,以上为了达到目前的效果,我至少也对话了十几轮,做了好多调整才勉强效果还行,中间出现了各种问题,并不是一步到位。

另外说实话,目前这个能力,可能解决一些组成元素没有那么复杂的图片可能还行,但是如果图片一复杂,复原的效果和编辑效果可能就不如意,比如如下这张图,内容很多也很复杂,还原的效果就不行。

所以,如果只是自己简单用户,快速提效,是没有问题的,但是真正要开发一个类似功能的应用出来,说实话一点都不简单,根本就没有那些博主们吹嘘的那么简单,每次看到这些,我就很想说,你们倒是开发个能交付的应用出来我们体验一下。

应用场景2: 生成产品营销宣传视频

1.目标实现效果

第二个我想要挑战的应用场景效果是给自己的产品生成一个营销视频,推广AI快研侠这个产品,这个场景很有难度,需要调用gemini 3 的视觉理解和编程能力,以及视频生成的能力。

2.实际实现效果

一开始我想要尝试像前面那样使用studio也类似开发一个应用界面来实现效果,实操下来,效果堪忧,基本无法达到我想要的效果,虽然能开发出一个像模像样的交互界面,但是视频生成的功能完全无法达到我想要的要求。包括生成的图像和原来的产品就不是一回事,而且模型自己虚构了一些不存在的东西,完全无法使用。

后面我想,gemini 3的核心能力是前端能力,我能不能让他通过前端动效的方式,模拟视频的动效、转场这些哪怕把交互效果呈现出来,我通过录屏的方式好像也可以,按照这个思路我尝试了一下,还是行的通的,实际做出来的效果还不错。

也算是基本还原了产品的核心体验和效果,虽然还有一些地方需要再调调,不过再花一点时间,是可以优化的更好一些的,不过这里我们只作为一个演示,我就不较真了。

3.实操攻略

算这里我直接就是使用gemini,切换gemini 3 模型来实现,输入提示词如下:

以上4张图是我的产品的使用界面,产品完整的操作流程为:首页->选择行业研究场景->输入研究主题->生成研究大纲->选择研究大纲->下一步->添加参考资料->生成研究报告->查看PPT视图报告。

接下来我希望你帮我基于这4张图,生成一个带演示动效的HTML来模拟这个产品的使用过程,要求如下:

1.采用前端动效的方式模拟视频中的缩放、点击、转场特效,让整个动画效果宛如视频一般;

2.大纲页面和报告结果页面文字比较多,可以增加一些内容打印的效果,呈现生成的过程;

3.每一步操作的时候,都在合适的位置增加一个操作提示的便签,文字提示操作内容。

4.请一比一的还原原来图片的排版布局、颜色和视觉效果,不要自己发挥创作,要求生成一个和图片一模一样的HTML,另外操作提示的便签请跟随操作区域的位置,放在更加显眼的地方。

4.实操过程的问题

主要的问题还是控制模型按照原图还原的问题,以及原图中如果包含图片元素,模型无法还原,需要提供素材URL,让模型更换,另外实际上,以上并没有直接生成视频,只是生成了前端动效,后期通过录制演示动效形成视频,和直接生成视频还是有区别,但是至少能快速的输出符合自己要求的视频。

应用场景3:设计产品稿

这个场景是我现在最常用,且最喜欢的环节,就是让模型给我当设计师,不停的帮我改产品稿和设计稿,以快研侠为例,今天我尝试让它给我的首页做一次视觉更新迭代,以下为演示效果:

如下为目前线上的首页效果,这个界面是当面我这个不懂设计的产品狗画的产品demo,现在看是有点丑,最近我在打算升级一下视觉,所以我打算让AI帮我提供几个设计方案。

使用gemini ,切换gemini 3 ,输入如下提示词:

如图这个是我的AI生成研究报告的产品 快研侠的首页,目前我对这个首页的效果不太满意,请你帮我重新生成一个更加符合用户使用习惯,设计更加有科技感,使用体验更棒的首页,生成一个HTML给我。

要求如下:

1.你需要以专业的产品经理的视角审视其中是否存在不合理的地方,给用户更好的使用体验;

2.让整个设计更加的精美和有质感;

3.分析用户的需求和可能存在的问题,想一下怎么解决。

接下来我们直接看最后设计的几个方案:

效果还行吧,比我当年自己画的好看太多,对于创业公司来说,基本够用了,这基本上已经能把我每年几万块的设计费用省下来了。

应用场景4:长文转小红书卡片

1.目标实现效果

这个场景的目标,是能支持我将公众号文章转成小红书的知识卡片,提高我作图的效率,对于很多公众号创作者非常有需要,单篇笔记至少可以节约2小时以上。

我希望的效果是,能够支持输入长文,然后一键生成排版精美、逻辑清晰的、图文并茂的小红书知识卡片,数量控制在18张以内(小红书的限制),并支持一键下载的本地。

2.实际实现效果

以下为实现的效果如下,我将之间notion的一篇增长策略分析的文章一键转成小红书卡片,这个结果我相当满意,基本上达到了很高的完成度。

实际上之前gemini 2.5 Pro的时候,我就已经高频的在使用这个功能,gemini 3这次的差别在于终于能够在卡片上绘画各种可视化图表,这个之前经常失败,从这里我就能明确,gemini 3的前端能力是升级了的。

3.操作攻略

这里也是使用gemini就可以了,将以下提示词发给gemini,复制公众号文章,直接发送,就可以生成卡片HTML,点击下载按钮可以批量下载到本地。

以下为三白的私藏提示词:

***Role***你是一个擅长将文本设计成小红书知识卡片的设计师

***Goals***-帮我将{用户提供的内容}生成一个可视化的HTML网页,网页中包含多个尺寸为小红书封面尺寸的知识卡片,具体要求见[Constrains]部分

***workflow***-第一步,对输入的内容按照小红书用户的阅读习惯做结构化提取,提炼出要点精华,请先输出结构化提取的结果,告诉我怎么规划小红书制作的内容,其中包括封面卡片、一级大纲卡片、内容卡片的信息,该环节不需要我确认;

-第二步,生成HTML网页,将知识要点通过可视化的知识卡片的方式呈现;

***Skills***

1.小红书封面设计能力;

2.设计美感能力;

***Constrains***

0.在实现“一键下载”功能时,必须考虑渲染的稳定性和准确性。请优先选择对CSS和SVG图形渲染更精确的截图库(如`dom-to-image-more`),以替代可能存在兼容性问题的库。为防止浏览器因同时处理多张大尺寸图片而卡顿或崩溃,图片生成的过程必须采用串行处理(即一张接一张地生成),而不是并行处理;

1.网页中每一个知识卡片的尺寸均采用1242 x 1660 尺寸,设计风格和排版需要统一;

2.每一个知识卡片的设计要求参考[design-require]部分要求;

3.每一个知识卡片中需要包含文字+图形视图,图形视图包括插图、图表、逻辑图、脑图等,可以基于当前知识卡片的内容生成;

4.单独为整篇内容的主题生成一个知识卡片,用于作为小红书封面的首图,注意主题名称需要居中显示;

5.若提炼的知识大纲存在多级大纲的情况,一级大纲请单独设置一个知识卡片即可,方便通过卡片识别层级结构,采用上方标题+下方配图的排版样式,注意标题的序号请采用数字,不要用繁体字;

6.网页的底部增加一个“一键下载全部知识卡片”的按钮,点击这个按钮后将所有的尺寸为1242 x 1660 的知识卡片打包成一个.zip包后导出下载到本地,图片导出格式采用png格式;

7.下载脚本在截图时,必须临时重置每张卡的CSS缩放,以捕获其完整的1242×1660像素视图,确保最终图片内容饱满无空白;8.注意知识卡片的信息填充和布局,让整个卡片看起来内容丰富,避免空白太多显得内容不丰富;

9.所有的元素内容都要完整显示在卡片内,不能出现元素溢出的情况;

10.不要有“@小红书知识卡片设计师”这种水印。

11.【特别注意】卡片内禁止出现滚动轴,所有的内容都在卡片首屏展示;当内容较多卡片无法完整展示的事后,你可以适当精简内容,确保内容不超过卡片的展示范围;

12.原文中有很多的数据,我希望更多的增加可视化图表,让卡片有更多的图形元素

***design-require***

1.核心风格: 现代、简洁的信息卡片式布局,整体的设计风格可以参考[CSS样式]中的代码;

2.设计目标: 清晰地呈现结构化信息,通过明亮的强调色吸引用户注意力。

3.颜色用途: 主色调根据产品的品牌色动态调整,用于需要用户注意或操作的元素,如按钮、关键数据和步骤编号,并采用品牌色的淡色调’se用于信息高亮区块的景。

4.排版原则: 保持清晰的视觉层级,正文要有良好的阅读性。

***CSS样式***

body { font-family: -apple-system, BlinkMacSystemFont, “Segoe UI”, “PingFang SC”, “Hiragino Sans GB”, “Microsoft YaHei”, “Helvetica Neue”, Helvetica, Arial, sans-serif, “Apple Color Emoji”, “Segoe UI Emoji”, “Segoe UI Symbol”; background-color:#e8e8e8; color:#333; margin: 0; padding: 40px 20px; display: flex; flex-direction: column; align-items: center; gap: 40px;}.download-button { background-color:#FF2D55; /* Douyin Lite Red*/ color: white; padding: 12px 24px; border: none; border-radius: 8px; font-size: 18px; font-weight: bold; cursor: pointer; transition: background-color 0.3s; box-shadow: 0 4px 12px rgba(255, 45, 85, 0.4); position: sticky; top: 20px; z-index: 100;}.download-button:hover { background-color:#e0284c;}.download-button:disabled { background-color:#a0a0a0; cursor: not-allowed;}.card-container { display: flex; flex-direction: column; gap: 40px;}.card { width: 414px; height: 552px; background-color:#ffffff; border: 1px solid#dcdfe6; border-radius: 12px; box-shadow: 0 8px 24px rgba(0, 0, 0, 0.1); padding: 30px; box-sizing: border-box; display: flex; flex-direction: column; overflow: hidden;}.card-header { text-align: center; border-bottom: 2px solid#f0f0f0; padding-bottom: 15px; margin-bottom: 20px;}.card-header h2 { font-size: 22px; color:#1f2329; margin: 0; font-weight: 700;}.step-num { background-color:#FF2D55; /* Douyin Lite Red*/ color: white; font-size: 16px; font-weight: bold; padding: 6px 14px; border-radius: 4px; display: inline-block; margin-bottom: 10px;}.card-content { flex-grow: 1;}.card-content h4 { font-size: 18px; margin-top: 15px; margin-bottom: 10px; color:#1f2329;}.card-content p { font-size: 15px; line-height: 1.7; color:#333; margin: 0 0 12px 0;}.card-footer { text-align: center; margin-top: auto; padding-top: 20px; font-size: 12px; color:#aaa;}.highlight-box { background-color:#ffe8ee; /* Light Douyin Lite Red*/ border: 1px solid#ffcdd4; /* Lighter Douyin Lite Red*/ border-radius: 8px; padding: 16px; margin-top: 15px;}.highlight-box h3 { margin: 0 0 10px 0; font-size: 18px; color:#FF2D55; text-align: center;}.list { list-style: none; padding-left: 0; margin: 0; color:#5f6670; font-size: 14px; line-height: 1.8;}.list li { padding-left: 24px; position: relative; margin-bottom: 8px;}.list li::before { content: ‘✨’; position: absolute; left: 0;}.highlight-text { color:#FF2D55; font-weight: bold;}.magic-number { text-align: center; margin-top: 20px;}.magic-number .number { font-size: 36px; color:#FF2D55; font-weight: bold; line-height: 1.3;}

***Initialization***

您好, 接下来, 请您作为一个拥有专业知识与技能(Skills)的角色(Role),严格遵循步骤(Workflow)step-by-step, 遵守限制(Constraints), 完成目标(Goals)。请你先理解这个提示词的内容并特别记住(Constrains)部分,特别注意导图的图片不能有蒙层,这对我来说非常重要,请你帮帮我,谢谢!让我们开始吧。

4.实操问题

以上的过程目前实操下来,最主要的就是如果内容太长了,信息量压缩会比较大,逻辑有的时候会出现问题,大部分情况下内容不长的话基本上不会有问题。

按照三白的AI实践习惯,一般我会先设计提示词,然后自己跑通应用场景,最后提供一个产品和应用给大家,所以没有错,以上这部分功能,后续我会提供一个应用给大家体验,目前已经在开发中,后续分享。

应用场景5:产品创意动画设计

最近刚好在开发一款新的产品,这周有个任务就是要个产品的头图生成一个酷炫的动画,让产品看起来很厉害,所以昨天我直接就用gemini尝试生成,效果非常不错。

我的需求是以“浑天仪”为参考,生成一个像浑天仪一样的动画,实际生成结果如下,目前这个结果我直接应用到产品中了。至于这款是什么产品,暂时保密一下,下周预计会公开分享给大家。

OK,以上就是我这两天摸索出来的关于gemini 3的实际场景应用,虽然也花了不少时间,但是gemini 3至少在完成度上还是不错的。

作者:三白有话说

来源:三白有话说

]]>
谷歌年度最强AI Gemini 3要给GPT-5.1上强度了 //www.f-o-p.com/376597.html Tue, 18 Nov 2025 07:22:12 +0000 //www.f-o-p.com/?p=376597

 

前几天 nano banana 2 的泄漏版本,正在网上被疯狂转载,奥特曼眼看着流量不能被 Google 再抢了去,一点预告都没有,直接就发布了 GPT-5.1。

现在,GPT-5.1 都来了,Gemini 3.0 还会远吗。

Google CEO Sundar 和 Google AI Studio 负责人 Logan,都回复了一则关于 Gemini 3 的帖子,内容显示 Gemini 3 在预测市场的发布时间,平台有 69% 的用户买入了这个月 22 号的时间。

Google CEO 回了意味深长的思考 emoji,毕竟在预测市场 Polymarket 上,Gemini 3 的发布时间从 8 月 31 号到年底,都有人买入,而现在除了本月 22 号,月底 30 号更是累计有三百多万美元。

图片来源:https://polymarket.com/event/gemini-3pt0-released-by?tid=1763343187680

种种迹象显示, Gemini 3.0 很有可能就在最近这周发布,并且还有机会和 nano banana 2 一起发布 。它们一个是在编程、智能体、写作等通用智能上更上一层楼,另一个是延续图像编辑的强大一致性和长文本渲染。

不敢想象年底的 AI 模型更新会有多激烈。

我们之前也汇总过关于 Gemini 3.0和nano banana 2 的爆料,那时的 Gemini 3.0 是出现在 Google AI Studio 的 A/B 测试中,能直接给我们生成一个 macOS 的云电脑,点开 Safari 还可以直接访问网页。

瑞典风格的网页设计,图片来源:X@RDeepl

而最近这段时间爆出来 Gemini 3.0 的料,一个比一个厉害。指令的理解能力更强,在编程项目中展示了丰富的世界知识,还有生成的网页,风格更多元也更大胆,更实用。

大模型竞技场上的神秘模型 

在大模型竞技场上,又多了一个编号为 riftrunner 的神秘模型,有网友在 battle 对战模式下,刚好测试到了它的效果。用它生成的 SVG 动画,一个比一个厉害。

下面这个能调节风速档位的电风扇,在 X 上被疯狂转载,大家都不相信 AI 有这么聪明,只用一句提示词,就能做出精美的 SVG。

图片来源:X@lepadphone

他还用这个编号为 riftrunner 的模型,生成了一个能同步真实时间,切换表盘颜色的手表动画 SVG。

和之前 nano banana 一开始出现在模型竞技场一样,网友们都在怀疑这个 riftRunner 就是 Google 马上要发布的 Gemini 3.0。

要想体验到它,我们不能手动选择, 必须在竞技场 battle 模式中随机获得 。battle 模式会给我们两个不同的答案,投票后才能知道型号名称。

为了减少反复尝试的痛苦,Flowith 的创始人还发 X,分享了通过设置浏览器 Agent 来自动投票,更快找到 riftrunner 的方法。

我们也在 LMArena 里面测试了多次,都没有碰到过 riftrunner,大概是运气都在我抽 nano banana 那会儿花光了。

继续在网上找了更多网友的分享,有人说 riftrunner 不失所望,是唯一一个解出下面这道数学难题的模型。

图片来源:X@Abasiono_Mbat

还有人在竞技场不断测试,做一个狐狸模型,得到了 riftrunner(Gemini 3)、Claude 4.5、以及 GPT-5 的三种对比。

图片来源:X@k0tovsk1y

还有应该选 both are bad,两个都很差的蒙娜丽莎 SVG 画像,即便是 riftrunner 看着也很怪,但至少又比 Claude 有更多关于蒙娜丽莎的元素。

左图为 riftrunner,右图为 Sonnet 4.5;图片来源:X@petergostev

以及 riftrunner 生成的,一只骑自行车的鹈鹕的 SVG。

图片来源:X@synthwavedd

藏在了手机端 Gemini App 的 Canvas 功能里 

还有网友说, 现在 Gemini App 里面的 Canvas 功能,使用的模型就已经是 Gemini 3.0 了 。因为在网页端的 Gemini 和手机端,输入同样的提示词,得到的输出,质量差距很大。

图片来源: https://www.reddit.com/r/Bard/comments/1ovvmjo/not_hype_posting_gemini_3_is_rolling_out_to/

于是一大波网页版和手机端的对比,纷纷出现在评论区,大家都认可了,手机上的 Canvas 真的是使用了更先进的 Gemini 3.0。

最直观的例子是这个 3D 宝可梦的动图,在 Web 端生成的 3D 动图背景简单,宝可梦的形象也很抽象;手机端的色彩、背景都做的更好。

图片来源:X@AiBattle_

还有网友做的 Gemini 和外星人入侵的对抗的 SVG,网页版继续一如既往的简陋,而在手机上的 Canvas 明显元素更多,更丰富。

左图为网页版,右图为手机应用版。图片来源:X@Lentils80

以及拿手机应用中的 Canvas 和 Claude 4.5 Sonnet 来对比,输入的提示词都是,一个 3D 宝可梦精灵球。

图片来源:X@ctgptlb

还有人拿 Xbox 手柄 SVG 图来做测试,iOS 手机应用里的 Canvas 和 浏览器里的网页版,是完全不同。

左边是手机应用,右边是网页版;图片来源:X@MaximilanS638

不过,也有用户分享自己 Gemini 手机端和网页端,出来的结果是一模一样的。

左图为网页版,右图为手机应用版。图片来源:X@Medeenatee

我也尝试输入「生成一个 Xbox 的手柄 SVG 图」来看看两遍的结果,但是都很不理想。要不是根本不像一个手柄的图,要不然就是键位这些全部错乱。

只能说模型会出现幻觉,我们人类也可能有幻觉。大模型竞技场的神秘代号模型,还有这种靠着观察输出差异的怀疑,都不能确定是否来自 Gemini 3.0。

更确定的信息是,有网友发现, Gemini 3.0 Pro 已经出现在 Gemini Enterprise 的 Agent 模型选择器中。

图片来源:X@testingcatalog

不过 Gemini Enterprise 也是不对一般的用户开放,但至少可以说 Gemini 3.0 真的距离发布不远了,或者说已经准备好了。

回看过去这一年来,几家大模型公司的发布记录,GPT-5 因为营销太多被诟病,发布后网友们表示熬了这么久,「就这」;还有在社交媒体一直没什么水花,但模型广受好评的 Claude 系列;现在是后发制人,凭着 nano banana 重新回到大家视野的 Gemini。

甚至在想,如果没有 nano banana,会不会还有人只记得它之前的名字,叫 Bard。

SimilarWeb 在前几天了公布了,各个大模型网页流量的统计数据,一年前 OpenAI 的网页访问流量占比是 86.6%,到了今天虽然还稳居首位,但是已经被瓜分走了相当一部分,只剩下 72.3%。

而被分走的流量基本上全去到了 Gemini,Gemini 从一年前只有 5.6%,在 nano banana 发布之后,冲到了现在的 13.7%,直接翻倍。

要是 Gemini 3 和 nano banana 2 能稳住,再接着这波流量,下个季度的柱状图,Gemini 的颜色可能还要占据更多。

作者:发现明日产品的

来源:APPSO

]]>