Nano Banana 2 – 青瓜传媒

GPT image-2与 nano banana-2生图实测对比

青瓜传媒 — Fri, 24 Apr 2026 00:45:04 +0000

21号凌晨，OpenAI 发了个大招。GPT image 2 正式上线。

Sam Altman 在直播里说这个飞跃就像从 GPT-3 一步跳到了 GPT-5。

曾几何时，AI生成复杂文本总是不可避免出现乱码，中文更是重灾区。现在，这个困扰被GPT image-2给解决了。

你能想象这是AI生成的图吗？

上图为一次生成

今年 2 月，Google 放出了 Nano Banana 2，我觉得惊为天人。之后两个月，它一直霸占 Arena.ai 的 Image Arena 排行榜第一名。直到4月21日…

Arena.ai排行榜截图

GPT Image 2总分1512分，以创纪录的 242 分优势领先第二名 Nano Banana 2。这是 Image Arena 历史上最大的领先差距。

这次更新，给GPT会员又多了一个续费的理由。

实测开始

测试一：攻略长图 / 信息图

1、花卉种类长图

画一张竖版「新手养花完全指南」信息图，按四季花卉、浇水频率、光照需求分类，配手绘花卉插画，淡绿底色小清新风格。

NanoBanana 2

GPTImage 2

2、二十四节气图

画一张「二十四节气穿搭指南」长图，横向时间轴贯穿整图，每个节气一个小人偶展示当日穿搭，标注气温范围、材质建议、配饰点睛。浅米色底配二十四种渐变色。

Nano Banana 2

GPT Image 2

测试二：海报/杂志封面

1、国风海报生成

画一张《VOGUE》风格时尚封面，主角穿国风礼服，背景水墨山水，经典刊名字体，烫金标题，右侧期号与条形码齐全。

Nano Banana 2

GPT Image 2

2、杂志封面生成

画一张《地理中国》封面，航拍中国丹霞地貌，大字标题「大地的调色盘」，左下角 logo，写实摄影质感。

Nano Banana 2

GPT Image 2

测试三：发布海报

画一张李宁国潮海报，红金配色，主角穿国风运动服，大字「国潮正当燃」，街头潮流风格。

Nano Banana 2

GPT Image 2

测试四：实物产品拆解图

给尼康Z8相机设计一张酷炫详细的产品分解图

Nano Banana 2

GPT Image 2

测试五：游戏地图

画一张仙侠世界手绘地图，宣纸质感，标注仙山、秘境、门派、渡口，配古风小插画，四角祥云纹样。

Nano Banana 2

GPT Image 2

测试六：银河科普图

银河星云科普长图，梦幻星云插画、宇宙冷知识，浪漫科幻感。

Nano Banana 2

GPT Image 2

测试七：暗黑奇幻世界观

架空奇幻世界设定长图，种族划分、规则介绍、势力分布，手绘插画 + 文字注解，暗黑幻想风。

Nano Banana 2

GPT Image 2

测试八：体检报告生成

画一张「成人体检报告解读」长图，分血常规、肝肾功能、血脂血糖模块，数据对照表 + 通俗解读，莫兰迪绿，医院报告版式。

Nano Banana 2

GPT Image 2

结论

通过8轮10组图片测试，GPT image-2整体输出效果在图文一致性、风格适配度、图像质量、艺术性均大幅度领先nano banana 。

这不是小升级，这是一次设计和审美的革命，以前我们要生成一张能用的图片需要一大段提示词来约束模型，反复打磨微调图片，最后抽了半天卡，发现没一张符合要求的。但是现在，只需要输入一句话，就可以做到工业级别的图像生成，媲美资深设计师。

ps：以上图片均为一次生成。

这是一次真正的设计平权。

古法设计或许有一天会成为非遗。

作者：shadow

深扒 Nano Banana 2 超多趣味玩法

青瓜传媒 — Tue, 10 Mar 2026 00:45:19 +0000

假都放完了，终于有时间来尝试一下 Google 在 2 月底发布的 Nano Banana 2 了，官方正式名称是 Gemini 3.1 Flash Image 。

虽然从细节上大部分时候整体可能还比不上 Nano Banana Pro，但是它也确实在性价比和可控性上做了很大扩展，用更低的成本覆盖了更多的应用场景。

Nano Banana 2 目前在 Gemini 和 Lovart、TapNow 、ComfyUI 等平台也都支持了，另外自己接 API 也可以。

01 到底变强在哪？

先说结论：Nano Banana 2 的重点是快、可控、能进工作流。

根据官方的说法有五个方向的进步：

首先，它把速度拉到 Flash 级别了。核心就是更快出结果，批量出图、快速迭代、反复调整，成本和等待时间都砍了下来。价格上，之前说 2K 分辨率的价格对比 4K 分辨率对半砍了，还有很多渠道费用更划算。

其次是指令遵循更强，可控性提升。同样的提示词下，更容易按要求去构图、安排风格和元素，不用反复抽卡。描述的和它输出的更接近了，要求很多也能精细实现了。

然后就是文字生成更可靠 + 支持翻译/本地化。图里的中英文可读性和排版准确性有明显提升。更重要的是它支持直接把图片里的文字翻译甚至本地化。二次修改非常友好。这对做海报、信息卡、电商图等来说会更方便了。

以及，更适合结合图像搜索 Grounding 的流程。它更像一个能和检索参考链路配合的图像模型。会先找依据、找参考，再基于真实数据生成更贴合需求的图。

Grounding ：把一个说法、判断或模型输出，建立在可验证的事实来源上，而不是只靠猜测。
如果涉及很多知识内容和数据的话，生成图片细节还是有很多问题的，有进步，但还是依然没到完全可靠的程度。

最后，依然支持知名 IP 形象；新增了多个特殊比例支持。尤其是长比例 1:8、8:1、1:4、4:1 的效果，利好设计。虽然效果还不算太好，但是未来可期，很有潜力。

02 图文渲染

Nano Banana 2 中英文渲染准确率还是很不错的，多行文字、价格标签、菜单列表这种复杂排版也能比较好地处理。它还支持多语言翻译，比如上传一张英文广告图，可以直接生成日语、法语等本地化版本，不只是翻译文字，还会调整视觉元素来适配。

最开始我尝试了4 组 Pro 和 2 的对比，后面发现差别不算太大，除非是非常细小的字体或者细节，这一节以后我就没有再放 Pro 的图了。下方左边是 Pro ，右边是 Nano Banana 2

多语言混排：

画面目标与主题：多语言欢迎信息图，采用包豪斯现代主义设计感，几何图形与文字共同构建理性又有温度的视觉。
构图与镜头语言：横版结构，左侧为圆形色块与箭头流程，右侧为多语言欢迎词矩阵，顶部标题横跨两区，底部细条信息带收束。
主体元素与层次：第一层是几何图形（圆、矩形、斜切块）；第二层是主副标题与语言矩阵；第三层是小型编号、坐标刻度与注脚。无人物，强调系统化视觉语言。
光线与色彩材质：高质感平面印刷，主色钴蓝、奶白、炭黑，点缀朱橙；材质干净平滑，氛围理性、明快、展览级。
主标题：”WELCOME ACROSS BORDERS”；字体风格：现代无衬线粗体；视觉效果：平面高对比印刷；字号等级：最大；位置：顶部居中跨栏。
副标题：”全球问候语可视化图谱”；字体风格：中黑人文黑体；视觉效果：细描边+浅阴影；字号等级：中号；位置：主标题下方左对齐。
说明文字：在右侧文本矩阵中按多列展示“欢迎”词并保留语言含义，包含 Welcome（英语，欢迎）、Bienvenido（西班牙语，欢迎）、Bienvenue（法语，欢迎）、Willkommen（德语，欢迎）、Benvenuto（意大利语，欢迎）、Bem-vindo（葡萄牙语，欢迎）、欢迎（汉语，欢迎）、ようこそ（日语，欢迎）、환영합니다（韩语，欢迎）、أهلاً وسهلاً（阿拉伯语，欢迎）、स्वागत है（印地语，欢迎）、Karibu（斯瓦希里语，欢迎）、Selamat datang（印尼语/马来语，欢迎）、Maligayang pagdating（菲律宾语，欢迎）、Hoş geldiniz（土耳其语，欢迎）、Welkom（荷兰语/南非语，欢迎）、Chào mừng（越南语，欢迎）。
符号文字：仅放图例与导航词，不新增欢迎词，如 Legend / Direction / Entry Point / Exit Flow；字体风格：技术等宽体；视觉效果：低对比细线；字号等级：最小；位置：底部图例条与角落标记。
可读性与排版约束：图形不压住正文，语言矩阵行距一致，主副标题区分明显，所有文本可一眼辨认。

高密度文字：

生成 4:5 竖版新装饰艺术（neo-art-deco）会议海报，文字密集但完全可读，版面对齐严格。采用阶梯式几何结构、深祖母绿与金属象牙色，主标题用高反差衬线体。
主标题“FUTURE DESIGN FORUM”，副标题“VISUAL SYSTEMS 2026”，说明行强调微文案清晰与层级优先。
底部加入 3 个可读信息胶囊（演讲者、城市、工作坊），右上角加入机构徽章，底部加入法律微文案。要求边缘锐利、拼写准确、无字符变形，可直接发布。

以后做多语言的海报，直接把海报图片给 AI 让他做参考，再给我其他语言的，线条稳稳的，文字也比较和谐，字体效果也有照顾到（下面这排图片都是 2生成的）

把海报中的全部文字内容都翻译成阿拉伯语/韩语/日语。

纵深透视也能排，下面两个我感觉Pro的处理是更高级的：

反战社会议题海报，极简但强冲击，中心透视通道由“WEAPONS”构成多层递进门洞，外层巨字压向画面中心，内层红光渐亮，一名儿童与成人剪影牵手站在远端，地面黑色沥青与红色导向块形成节奏，整体黑底血红字、硬阴影、旧印刷纸张纹理与噪点；
上图文字：主标题“把武器放下，把明天还给他们”使用几何无衬线重黑体、厚描边与轻凹凸压印、字号最大、底部居中，副标题“战争结束的那一刻，童年才重新开始”画面中下部居中，说明文字“不是谁赢了，而是谁终于不再失去”使小号、底部单行横排，符号文字“DISARM / PEACE CORRIDOR / SAFE EXIT”使用等宽斜体粗字、透视扭曲连续复制、字号随纵深递减、覆盖顶面与左右墙体；
排版要求主次分明、留白合理、所有文字边界清晰可读

上图为Nano Banana Pro生成

画面目标与主题：治愈奇幻角色卡，主角为少年植物师“林沐舟”，十六岁，背着玻璃温室箱在漂浮岛群采集夜光种子；主题强调成长、修复生态、温柔冒险。
构图与镜头语言：明快横版，主角蹲姿观察发光苔藓，前景有透明水滴与嫩叶，背景为层叠漂浮岛与木桥；左上为角色表情小图，右侧为服装与工具分解，底部为任务日志。
主体元素与层次：主角短卷发、浅卡其工装、草绿色围巾、软底靴、玻璃采样瓶、折叠铲与手账；环境元素有藤蔓灯、云雾、风车温室、微型飞鸟。
光线、色彩、材质与氛围：主色调为薄荷绿、奶油黄、天空蓝、木棕；光线采用晨雾逆光与植物自发光；材质强调亚麻布、木纹、玻璃通透、湿润土壤；氛围轻松清新。
上图文字重写与排版：
主标题：文字“林沐舟”；字体风格圆角无衬线体；视觉效果柔光描边+轻浮起阴影；字号等级最大；摆放位置左下横排。
副标题：文字“漂浮群岛生态修复记录”；字体风格人文黑体；视觉效果浅绿底条+深色字；字号等级中号；摆放位置主标题上方。
说明文字：文字“他把每一粒微光种子都编号入册，用最慢的步伐让枯萎地带重新长出风与花。”；字体风格手写感印刷体；视觉效果纸张颗粒+低饱和墨色；字号等级小号；摆放位置底部中段日志框。
符号文字：文字“采样瓶”“夜光苔”“折叠铲”“温室箱”“任务点D3”“今日风向”；字体风格等宽体；视觉效果奶油黄标签+草绿字+细描边；字号等级最小；摆放位置对应工具与植物旁注。
可读性与排版约束：标题与日志区分层清楚，注释不遮挡主动作，文字对比适中，保证柔和色调下依旧清晰可读。

之前大家讨论有提到 Nano Banana 2 的人物还是会出现比较油的情况。在我个人体验后，想顺便再提一点：

如果是使用 Gemini 的话，我推荐大家在生成人物时，考虑使用 JSON 格式对比一下，概率上更容易获得更好的人物真实感。大家可以对比一下自然语言和使用 JSON 格式这两种不同类型的提示词所生成的图片效果。这里我都使用的是 2K 图片，如果想要小字细节更好，可以考虑生成 4K 图片。

下方左边是自然语言生成，右边是 JSON 格式提示词生成。不过这个图问题比较明显，50毫升应该没有这么大的

奢侈香水品牌平面海报，法国高级时装语境，巴黎左岸夜色灵感，构图；
主角为一位法式冷艳气质女性模特（高定黑色缎面礼服，克制珠宝，湿润微卷发，淡妆但轮廓立体），手持一只切割感强的水晶香水瓶，瓶身琥珀色液体在边缘高光中微微发亮；
场景为现代法式公寓与古典石膏线元素融合的室内布景，背景有柔焦城市夜景与轻微雨痕玻璃反射；整体色彩采用深黑、香槟金、烟灰蓝、琥珀金，低饱和但高对比，强调“克制奢华”。
镜头语言：85mm 人像镜头质感，浅景深，模特三分之二侧身，视线略偏离镜头，留白充足用于文案；光线采用电影级三点布光 + 轮廓边光，皮肤高光细腻，玻璃与金属反射干净，阴影层次丰富；材质表现突出丝缎、玻璃、金属喷头、石材墙面微纹理；
整体呈现虚幻引擎级超写实渲染质感（UE5 look），全局光照、体积雾极轻、微颗粒胶片感，4K 商业广告成片品质。
版式与文案（法语）：
顶部小号衬线字：MAISON ÉTOILE
中部大标题（高奢衬线，字距拉开）：L’OMBRE DORÉE
副标题（无衬线小号）：Parfum Intense
底部信息：50 ML • EXTRAIT DE PARFUM
文字排版极简、呼吸感强、对齐严格，避免拥挤；
整体气质必须像法国一线奢侈品牌新品发布海报，优雅、冷静、昂贵、可登巴黎地铁灯箱与高端百货橱窗。

03 真实世界知识

比如来个好玩的，任意城市、任意景点的福字打卡（下面是元提示词，如果是设计 Agent 直接发全文说城市，如果普通生图工具就发给 AI 再输入城市获得提示词）：

你是海报生图提示词生成器。
任务：用户只输入一个城市名，你只输出一条完整“生图提示词”（不要解释、不要分析）。
强制要求：你输出的这条生图提示词中，必须包含以下执行指令（作为画面生成约束）：
1) 先进行图像检索，锁定该城市真实机位与地标关系，确保建筑站位、岸线/山体轮廓、空间透视与真实观察一致。
风格与构图固定要求：
– 竖版3:4，超写实，节庆电影感，高级审美。
– 仅出现一只手：成年女性的手，单手入镜，禁止双手、禁止多余手指或额外肢体。
– 女性单手从画面下方自然举起红色宣纸卡。
– 红纸中央为“福”字镂空，镂空后是该城市真实天际线。
– “福”字占比控制在红纸可视面积的50%-55%，笔画舒展且留白均衡。
– 50mm真实摄影；浅景深但“福”字边缘与核心地标同时清晰。
– 红纸哑光纤维质感，轻微折痕，刀刻微毛边。
文字与图标排版固定要求（写进最终生图提示词）：
– 主标题仅“福”，最大字，居中。
– 所有辅助元素必须在红纸内部下方，且位于“福”字下方，不得落到背景。
– 左下两行：
– 第一行：城市中文名 + 英文名（例：香港 Hong Kong）
– 第二行：固定祝福短句 `WISHING YOU PROSPERITY AND PEACE`
– 右下元素为“马头造型的2026实心填充图标”透明度80%（块面填充，非线框，数字与马头形体融合，清晰可读）。
– 严格尺寸规则（必须同时满足）：
– 先计算左下两行文字总高度 `H_text`（含行高与行间距）。
– 图标外接框高度 `H_icon` 必须满足 `H_icon = H_text`。
– 若发生冲突或模型不稳定，强制回退为 `H_icon = 0.90 × H_text`（宁小勿大）。
– 绝对禁止 `H_icon > H_text`（硬上限）。
– 图标与左下文字组底边对齐；图标顶部不得高于左下第一行文字顶部。
– 图标仅放在右下安全区，不得侵入“福”字主体区域。
– 负面约束：禁止 oversized logo、禁止大徽章感、禁止图标抢主视觉。
– 辅助元素区域总高度不超过红纸高度的12%-15%。
– 除“福”外禁止其他大字；其余元素低干扰，清晰无重影无乱码。
– “福”字以外所有文字与图标颜色统一为“带环境色偏移的白”，透明度85%。
输出规则：
– 只输出一条最终生图提示词。
– 不要输出解释，不要输出元提示词说明。
– 若文字或图标尺寸冲突，优先缩小右下图标，不得放大图标。

百科全书类的也都可以试试，在真实世界知识上它也有提升了。但还是那句话，细节问题还是有的，注意核实。

搜索王维生平，生成百科全书式长图，中文。16:9，2K

Search Grounding 本质上是让模型在生成时能调用实时搜索结果作为依据。看着挺像那么回事的，但是细节问题还是比较多的。

来个长图，这个是 1:4 和 4:1 的比例，目前的效果还差一口气，但按照这个发展速度，可能到 2 Pro 就能轻松做长图了。

宽图：

创作一张纵向一镜到底的信息叙事长图，主题是“碎片化信息如何侵略你的大脑”。
画面按因果连续推进。
要求空间与时间无缝流动、视觉隐喻清晰、信息层级明确、画面连贯无硬切、超长画幅、科普叙事感强。
中文。
风格要求：现代医学科普视觉风格，干净、理性、可信；以高明度白色与冷灰为底，主色为医疗蓝+青蓝+少量薄荷绿，低饱和且通透；用少量珊瑚橙仅作风险预警点缀；平滑背景、轻微玻璃质感和柔和阴影；线条精确、图标符号化、留白充足，整体呈现医院导视/医学期刊信息图的专业洁净感。

这里有一个小技巧，如果安装了谷歌浏览器的AI，那么可以在搜索完结果之后直接在结果的下方点击生成信息图，生成的图片大约是 1K 的图片，画质比较一般，但是这样出快速信息图真的很快速。用于即时的快速内容分享很方便。

到这里我对于面包与马戏政策有点好奇，于是我追问并让它保持风格不变继续生成，这时候可以保持格式更一致一点：

04 角色一致性

超多角色也可以。比如我首先直接先一把直出 15 个角色，这里大家也可以看一下它在角色细节上的遵循程度。

电影级3D卡通大场景，15个原创IP角色同处一个热闹的“森林创意嘉年华广场”，黄昏暖光，体积光与柔和环境光并存，PBR材质，细节清晰，色彩明快统一。
镜头为广角全景、略微俯视，画面有前景-中景-背景层次，所有角色完整可见、互相有互动、不重叠遮挡关键特征。场景中心是圆形木质舞台与发光地砖，周围有小摊位、花箱、工具台、全息屏装置、悬挂彩旗与灯串，地面有自然投影与微反射，整体童趣、电影感、故事性强。
15个角色全部出现且彼此不同，并在同一时刻进行各自动作：
1. 熊猫宇航员在舞台左侧调试喷气背包；
2. 狐狸魔法师在舞台前方挥动法杖释放紫色微光粒子；
3. 企鹅厨师在餐车前翻锅，锅里有可控火焰；
4. 青蛙快递员踩滑板穿过广场递送包裹；
5. 考拉摇滚吉他手在小舞台弹奏电吉他；
6. 柴犬侦探在路灯旁拿放大镜观察线索；
7. 兔子机械师在工具台维修机械臂零件；
8. 小鹿花艺师在花箱边整理花束与藤蔓；
9. 章鱼程序员在全息终端前用多触手同时操作透明屏幕；
10. 小鸡牛仔甩动套索与观众互动；
11. 浣熊摄影师半蹲抓拍全场活动；
12. 海狸木匠在木工区敲打并拼装小木牌；
13. 猫咪调酒师在吧台摇雪克杯调制饮品；
14. 刺猬园丁给盆栽浇水并摆放幼苗；
15. 小龙甜品师端着纸杯蛋糕托盘从甜品摊走出微笑招手。
统一要求：
每个角色体型比例、服装结构、道具、主色调、表情气质都明显不同；
角色之间有视线与动作呼应，形成“嘉年华协作”叙事；
不出现文字、logo、水印、边框；不裁切角色；
高分辨率，超精细，干净背景控制，整体像一张可用于IP世界观海报的3D群像场景图。

然后我可以让这 15 个角色出现在同一个场景中，并且保持他们细节上的一致性。

电影级3D卡通大场景，15个原创IP角色同处一个热闹的“森林创意嘉年华广场”，黄昏暖光，体积光与柔和环境光并存，PBR材质，细节清晰，色彩明快统一。
镜头为广角全景、略微俯视，画面有前景-中景-背景层次，所有角色完整可见、互相有互动、不重叠遮挡关键特征。
场景中心是圆形木质舞台与发光地砖，周围有小摊位、花箱、工具台、全息屏装置、悬挂彩旗与灯串，地面有自然投影与微反射，整体童趣、电影感、故事性强。
15个角色全部出现且彼此不同，并在同一时刻进行各自动作：
1. 熊猫宇航员在舞台左侧调试喷气背包；
2. 狐狸魔法师在舞台前方挥动法杖释放紫色微光粒子；
3. 企鹅厨师在餐车前翻锅，锅里有可控火焰；
4. 青蛙快递员踩滑板穿过广场递送包裹；
5. 考拉摇滚吉他手在小舞台弹奏电吉他；
6. 柴犬侦探在路灯旁拿放大镜观察线索；
7. 兔子机械师在工具台维修机械臂零件；
8. 小鹿花艺师在花箱边整理花束与藤蔓；
9. 章鱼程序员在全息终端前用多触手同时操作透明屏幕；
10. 小鸡牛仔甩动套索与观众互动；
11. 浣熊摄影师半蹲抓拍全场活动；
12. 海狸木匠在木工区敲打并拼装小木牌；
13. 猫咪调酒师在吧台摇雪克杯调制饮品；
14. 刺猬园丁给盆栽浇水并摆放幼苗；
15. 小龙甜品师端着纸杯蛋糕托盘从甜品摊走出微笑招手。
统一要求：
每个角色体型比例、服装结构、道具、主色调、表情气质都明显不同；
角色之间有视线与动作呼应，形成“嘉年华协作”叙事；
不出现文字、logo、水印、边框；不裁切角色；
高分辨率，超精细，干净背景控制，整体像一张可用于IP世界观海报的3D群像场景图。

有角色设定图的情况下，长提示词和自由发挥它都能比较好地控住

3D卡通电影质感，4×4十六宫格分镜海报，统一世界观与统一角色建模（沿用同一套15个IP角色设定），每个格子为独立小场景，单格只出现1-2个角色，镜头语言清晰，整体从左到右、从上到下形成完整故事线。
画面要求：正方形总画幅，16个格子边距一致、留白均匀、排版整齐，柔和体积光，PBR材质，色彩明快，表情夸张可爱，动作有戏剧性，不出现文字、logo、水印。
故事主题：森林创意嘉年华从筹备到突发停电再到重启，最后以“开场瞬间”收束。
第1格（清晨）熊猫宇航员独自在广场中央检查喷气背包，晨光洒下。
第2格狐狸魔法师与小鹿花艺师布置入口花环与彩旗，轻松微笑。
第3格企鹅厨师与小龙甜品师在餐车前备餐，锅中微火与甜点蒸汽。
第4格青蛙快递员滑板送来“核心零件箱”，兔子机械师在门口接货。
第5格浣熊摄影师单人测试相机机位，低角度取景嘉年华主舞台。
第6格海狸木匠与刺猬园丁搭建木质指示牌和盆栽边界，细节忙碌。
第7格猫咪调酒师与小鸡牛仔试营业互动，套索在空中形成弧线。
第8格章鱼程序员独自在全息控制台前调试灯光系统，蓝色屏幕发光。
第9格（突发）全场突然断电，章鱼程序员与柴犬侦探在黑暗中发现异常线缆。
第10格兔子机械师与熊猫宇航员联手修复主电机，工具火花飞溅。
第11格狐狸魔法师与青蛙快递员在高处重新连接能量导管，动态感强。
第12格企鹅厨师与小龙甜品师安抚排队观众，递出热食和纸杯蛋糕。
第13格（恢复）全场灯串重新点亮，浣熊摄影师抓拍关键瞬间。
第14格柴犬侦探与海狸木匠确认结构安全，二人击掌庆祝。
第15格考拉吉他手与小鸡牛仔在舞台热场演出，节奏欢快。
第16格（新结局）熊猫宇航员按下“开场按钮”，狐狸魔法师在旁释放金色粒子，主舞台灯光同时点亮，远处可见模糊人群与其他角色剪影，形成“庆典正式开始”的收束画面。
统一约束：
角色外观必须与设定一致且彼此明显不同；
每格情节连续、光色连贯；每格最多2个角色；
镜头多样化（远景、中景、近景交替）；整体是一张可读故事的十六宫格3D卡通叙事海报。
无文字

Nano Banana 2 官方说同一工作流里最多支持 5 个角色的相似度保持，以及 14 个对象的保真度。可以更稳定地做连续内容了，绘本系列、品牌 IP 多场景、教程分步图、打卡系列等等，角色不走形，内容也更方便积累成系列。

真实人物的也可以。

超写实摄影拼图肖像，横幅构图，画面严格五等分并保持每一格视觉权重一致，每格1位不同人物+不同场景，五人身高比例自然，头部位置统一在上三分线附近，整体像国际人物专题摄影。
第1格：22岁中东女性，深棕卷发，雀斑明显，穿浅灰连帽卫衣，背景是大学图书馆窗边，暖阳斜射到木质书架。
第2格：47岁东亚男性，寸头，轻微胡茬，穿深色西装外套和高领针织衫，背景是现代办公室会议室，玻璃墙和城市天际线。
第3格：29岁非裔女性，脏辫盘发，金属圆环耳环，穿橄榄绿飞行夹克，背景是地铁站台，荧光灯与列车虚化光带。
第4格：33岁白人男性，长发扎低马尾，牛仔衬衫叠穿皮围裙，背景是木工工作室，工具墙和木屑细节清晰。
第5格：26岁拉丁裔男性，短卷发，浅色亚麻衬衫，背景是海边渔港黄昏，船只和湿润空气层次分明。
光线设定：
每格依据环境独立布光但整体色调统一为自然电影感，中等对比度，真实阴影过渡；
镜头35mm，ISO 200，快门1/160，真实肤色与细节，绝对写实，无插画感，无AI塑料皮肤，无logo无字幕。

把上面5个角色放在一个场景里：

超写实电影级群像摄影，单一连贯场景，不分屏不拼图：黄昏时分的滨海创意园共享大厅，左侧是木质书墙与阅读窗位，中部是玻璃会议区与开放通道，右侧延伸到木工工作台和可见船只的港口露台，五人同时出现在同一空间并保持自然社交距离，整体叙事为“跨职业人群在同一场域协作交流”。
人物设定与动作：
22岁中东女性，深棕卷发、明显雀斑、浅灰连帽卫衣，站在书架旁翻阅一本笔记并抬眼倾听；
47岁东亚男性，寸头、轻微胡茬、深色西装外套+高领针织衫，站在玻璃墙前手势讲解；29岁非裔女性，脏辫盘发、金属圆环耳环、橄榄绿飞行夹克，边看手机上的路线图边转身回应同伴；
33岁白人男性，长发低马尾、牛仔衬衫叠穿皮围裙，在木工台上轻扶木板并暂停操作加入对话；
26岁拉丁裔男性，短卷发、浅色亚麻衬衫，站在露台入口手持咖啡望向众人点头示意。
五人身高比例自然，头部高度大致落在同一上三分线附近，人物前后层次清晰但视觉权重均衡。
光线为统一自然电影感：室内暖色环境光+窗外冷色天光混合，中等对比度，真实阴影过渡，肤色准确，空气中轻微湿润感，细节清晰可见（木纹、玻璃反射、金属工具、远处船体）。
镜头35mm，ISO 200，快门1/160，浅景深但五人面部均清楚可辨，纪实风格，绝对写实，无插画感，无AI塑料皮肤，无logo无字幕。

Nano Banana 2 无需参考图，同一张图里出现角色多次，出现多个角色，也可以维持一致性。

这在需要做连续内容的时候确实会很方便，细节上更有说服力了。比如下方这里，完全靠文生图它在多个形象上也维持率比较好的一致性。不需要很长的提示词也可以有比较好的效果，只要有脑洞都可以轻松做出属于自己的漫画小场景

四格漫画；
主体：主角、左肩天使、右肩恶魔、第三只小动物；
动作：天使劝学习、恶魔劝躺平，第三只提议先吃东西；
场景：房间书桌前；
镜头：肩部近景+三方对峙；
风格：可爱寓言式漫画；
中文；
约束：三角色造型差异明显、结尾温柔搞笑。

四格漫画；
主体：法官猫、被告人类、陪审团小猫；
动作：审理“为何又熬夜”，判决没收手机、强制睡觉、奖励小鱼干（给猫）；
场景：迷你法庭；
镜头：法庭全景+法槌特写；
风格：可爱严肃拟人漫画，中文；
约束：猫咪权威感与可爱并存。

包括IP的也是，小到 LOGO 的细节都可以维持了，做延展更方便了

创建一组6帧的品牌吉祥物多场景应用系列图。在所有画面中保持吉祥物角色的身份一致性。
角色设定：
– 吉祥物”咖小豆”：一颗拟人化的咖啡豆角色，深棕色椭圆形身体，有两只圆圆的大眼睛和微笑的嘴巴，短小的四肢，头顶冒着一缕热气（像刚烘焙好的咖啡豆），始终佩戴一个微型咖啡师围裙（白色，上面有一个小咖啡杯图标）
六帧场景内容：
第一帧·产品包装场景：咖小豆站在一个咖啡袋包装的正面，双手举起一面小旗帜，上面写着”新鲜烘焙”，背景是简洁的牛皮纸色。
第二帧·社交媒体头像场景：咖小豆的大头特写，一只手托腮，歪头微笑，眨眼表情，背景是品牌色渐变（深棕到焦糖色）。圆形构图。
第三帧·节日营销场景：咖小豆穿着圣诞老人帽和红色斗篷，站在一棵用咖啡杯和咖啡豆装饰的圣诞树旁边，手中端着一杯拉花热巧克力，周围飘着雪花。
第四帧·教学科普场景：咖小豆穿着教授的毕业帽和小眼镜，手持教鞭指向一块黑板，黑板上画着”咖啡豆烘焙程度”的三个阶段（浅烘中烘深烘），表情认真严肃但可爱。
第五帧·运动活力场景：咖小豆穿着运动头带和跑鞋，正在慢跑，身后留下一串咖啡豆形状的脚印，背景是清晨的公园绿道，周围有几杯咖啡外带杯在为他加油。
第六帧·睡觉晚安场景：咖小豆穿着小睡衣和睡帽，抱着一个咖啡杯形状的抱枕，闭着眼睛甜甜地睡在一片咖啡豆堆成的小床上，头顶的热气变成了ZZZ睡眠符号，周围点缀着星星和月亮。
视觉风格：3D卡通渲染风格，类似Line Friends的质感——圆润光滑的表面、柔和的阴影、明亮友好的配色。
所有画面分辨率4K。
中文。

单张插图的稳定性越来越好，扁平转 3D 效果也很和谐：

一组扁平化矢量风格的办公场景插画：一个戴眼镜的男性角色坐在电脑前工作，桌上有咖啡杯、文件和台灯，背景是简约的办公室环境（书架、窗户、绿植），使用明亮的蓝色、橙色和白色配色方案，类似Google Material Design的扁平插画风格，干净简洁的线条，没有任何文字。
/第2个
保持画面中的所有元素不变（人物、电脑、咖啡杯、文件、台灯、书架、窗户、绿植），保持整体构图和蓝色+橙色+白色的配色方案不变。
将视觉风格从扁平化矢量插画改为3D卡通渲染风格：
1. 所有物体添加立体感，具有柔和的圆角和厚度
2. 人物从扁平剪影变为Q版3D卡通角色，保留眼镜和坐姿
3. 桌面物品变为3D等距视角的微缩模型质感
4. 添加柔和的环境光遮蔽（AO）阴影效果5. 材质质感从纯色色块变为类似黏土/塑料的哑光质感
6. 保持明亮友好的整体氛围
整体效果类似Pixar/Nintendo风格的3D卡通渲染。

05 多比例图片

Nano Banana 2 支持 14 种宽高比，分辨率从 512px 到 4K。常见的 9:16、16:9、1:1 自然不用多说，非常有意思的是它现在已经支持 1:4 甚至 1:8 这样的极端长图比例了。以后想要做长图攻略、时间轴信息图、竖版故事条、全景海报，有了更多可能性。

接下来来看一写长比例和全景比例。下面是 1:4 的效果

搜索达芬奇生平，生成洛可可风格百科全书式长图，中文。

说实话现在极长比例的质量还达不到常规比例那样的水准，但已经很不错了，很有潜力。

相比8:1的话，4:1会控制更好一点，毕竟细节也少一点。

超高审美二次元电影感群像海报，夜色霓虹雨后街区，镜头为24mm广角低机位，前中后景分层清晰，20位日本动漫角色同场但保持各自核心辨识特征，整体美术统一为高对比赛博霓虹+胶片颗粒：
五条悟穿白色高领风衣单手拨开发光雨幕；
虎杖悠仁穿学院长外套跃起落地；
伏黑惠穿机能斗篷召出黑色影犬轮廓；
禅院真希穿街头护具扛金属长棍；
炭治郎穿城市侦探大衣握发光指南针；
祢豆子穿暗红机车夹克踩滑板急停；
我妻善逸穿DJ耳机外套在电光中转身；
嘴平伊之助穿拳击斗篷站上消防栓；
阿尼亚穿星空斗篷举放大镜；
约尔穿黑金晚礼战术裙持雨伞回眸；
洛伊德穿特工三件套整理手套；
芙莉莲穿现代极简长风衣托起蓝色魔法粒子；
欣梅尔穿复古骑士休闲装微笑侧立；
玛奇玛穿导演风黑西装打板；
电次穿涂鸦围裙举起链锯形霓虹道具；
帕瓦穿红色棒球夹克踩栏杆；
星野爱穿舞台机能服甩出彩光丝带；
后藤一里穿黑粉摇滚演出服抱吉他缩肩；
洁世一穿高街训练服高速盘球；
蜂乐回穿彩绘卫衣倒挂在路牌。
背景是多层城市游乐夜市：空中轻轨、透明天桥、悬浮广告屏改为抽象光块、蒸汽井盖、远景摩天轮，主光紫蓝、补光暖橙，湿地反射、体积雾、动态光斑、布料与金属材质细节拉满，画面干净高级、角色不拥挤、动势互补。
纯画面输出：无任何文字、无字幕、无logo、无水印、无UI

做全景图很适合的。

修仙全景：

东方奇幻水墨与3D融合的超宽卷轴场景，画面像一幅会呼吸的山海长卷：
左侧是云海中的悬崖古寺与晨钟薄雾，中段是层叠山谷、飞瀑、古桥、竹林与流光神兽群，右侧是夜色初临的星湖、浮岛与远古天门。
要求同一画幅内出现时间流动感：从左到右由清晨过渡到黄昏再到蓝夜，光色自然衔接。材质融合宣纸肌理、水墨晕染边缘、半透明灵气粒子、石木建筑真实体积。
镜头采用高空俯瞰并结合局部贴近景，前景有飞鸟与云丝引导视线，中段主叙事最密集，右侧以宁静神秘收束。整体氛围空灵壮阔、诗性叙事、层次深远，细节精致、清晰度高、电影级环境设计，不出现文字、logo、水印。

蒸汽全景：

超宽幅电影概念图，蒸汽朋克天空港口在日落时分全面运转：画面最左侧是巨型铜制飞艇船坞与升降吊臂，中段是多层步道、齿轮塔楼、玻璃穹顶与人流市场，最右侧是云海边缘的离港跑道与远处悬浮城。
大量动态元素同时发生：飞艇起降、机械信使穿梭、蒸汽阀门喷薄、空中轨道车交错，形成强烈“忙碌文明”叙事。材质重点表现拉丝黄铜、旧化钢铁、皮革、木质甲板、雾化玻璃；
光照为金色逆光、侧向体积光、局部煤气灯暖光，烟雾层次明显，远近景清晰分离。
镜头语言为高位广角全景，前景有链条和管道压景，中景突出港口核心活动，远景展示天空城轮廓。
整体色彩为琥珀金、氧化铜绿、烟灰蓝，细节密度高但构图有秩序，超清、锐利、电影级质感，不出现文字、logo、水印。

未来全景：

复古未来主义太空殖民地超宽场景，灵感来自七十年代科幻海报但以现代3D渲染完成：左侧是红色荒漠中的圆顶农场与太阳能阵列，中段是主城交通环与透明穹顶生态区，右侧是发射井、轨道电梯基座与远处星环天际线。
强调人类日常与宏大工程并存：工程车编队、维护机器人、温室作业、观景平台人群、远处火箭准备升空。色彩控制为奶油白、复古橙、陶土红、钴蓝，轻微胶片颗粒叠加但主体锐利。
光线为低角度斜阳与环境冷补光，阴影长且清晰，空间透视强烈。
镜头为横向超广角，前景放置设备与岩石增强尺度感，中景突出城市结构，远景给出行星地平线与轨道设施。
整体风格怀旧却先进，叙事完整、信息饱满、可作为超宽海报主视觉，不出现文字、logo、水印。

油画史诗全景：

超宽幅文艺复兴宗教神话壁画场景，西斯廷穹顶叙事美学，但整体气质更柔和、更温馨：天穹被分为连续叙事区，中心是温暖神圣之光轻柔洒下，四周环绕天使、先知与人间家庭群像，人物表情平静慈爱，姿态优雅舒展，强调守护、祝福与希望。
采用古典湿壁画质感，保留石灰墙体与手工颜料层次，但弱化厚重冲突感，突出细腻笔触与柔和过渡。
色彩改为低饱和暖调：奶油白、浅金、蜜桃粉、鼠尾草绿、雾蓝、暖赭石；光线为晨曦般漫射光与边缘柔光，减少强烈明暗对比，增强空气感与亲和力。
构图保持庄重对称与穹顶宏伟尺度，云层与布幔作为柔性引导线，前中后景清晰但不压迫。
整体氛围宁静、抚慰、神圣而亲近，博物馆级细节，不出现现代物件，不出现文字、logo、水印。
中文文字

上面的做竖版也可以试试，这里不想篇幅拉太长我就不放了。大家也可以直接用我上面的提示词试试超长竖版。

详情页，文案和卖点也拿捏，一致性还挺好的。不过细节上也还是存在问题。我还是那句话，有潜力，也还有较大进步空间。以后要能稳定出了那就很刺激了。

设计感手袋白底三视图，极简云朵包（柔软鼓感轮廓、磁吸开合、短提手+可拆肩带、雾面皮革），一张图横向并列 front side back，白底无缝，镜头一致，棚拍柔光，细节高清，风格清新时髦，适合年轻女性市场

为这款奶油白云朵褶皱女包生成一张中文电商长图详情页：
整体保持极简高级调性，先展示产品主视觉和三视图（正面/侧面/背面），再依次覆盖设计卖点、材质与工艺细节、背法与上身效果、容量展示、尺寸参数、细节特写、配色与适用场景、售后与购买引导；
要求图文层级清晰、移动端易读、中文文案完整无错字乱码，重点突出质感、实用性、百搭性和购买转化。
轻奢品牌物件插画化低密度视觉风格，主视觉居中悬浮，大面积留白增强高级感。配色采用低饱和体系，情绪温和、统一度高。
线条细而柔，环境元素极简，重点突出产品本体与品牌识别。
整体更偏情绪广告画面而非信息承载型信息图。
/为这款奶油白云朵褶皱女包生成一张中文电商长图详情页：
整体保持极简高级调性，先展示产品主视觉和三视图（正面/侧面/背面），再依次覆盖设计卖点、材质与工艺细节、背法与上身效果、容量展示、尺寸参数、细节特写、配色与适用场景、售后与购买引导；
要求图文层级清晰、移动端易读、中文文案完整无错字乱码，重点突出质感、实用性、百搭性和购买转化。
电商时尚广告页”风格：用中轴大产品图做绝对主角，上下分层文案完成转化闭环。色彩以黑白灰秩序承载信息，以单一深色产品制造焦点与品牌记忆。
字体采用高端衬线标题 + 现代无衬线正文的经典杂志广告组合，兼顾调性与可读性。
背景以线稿城市和生活道具补足场景，但不抢产品主视觉。适合新品上新、爆款推广与品牌社媒广告素材。保持留白提升高级感。

还有卡通科普长图，也是英文版效果更好，我有一个鬼点子，如果中文效果你始终不满意，可以先生成英文版，然后将满意的英文版图片给它翻译成中文版，效果挺好的。

生成《社区文明养犬规则卡》内容结构：（牵引绳、清理粪便、禁入区域、疫苗、噪音、投诉渠道）。
信息图风格：以白底和绿色主色建立清晰秩序，用黄色做情绪化提醒。
版式采用竖向单栏编号递进，配合大圆角气泡容器与Q版情境插画，使规则内容更易读、易记。
文字系统强调标题强识别、正文高可读、注释弱化，整体信息密度适中。
图形语言以粗线手绘轮廓与轻装饰符号为核心，兼顾亲和感与规范感。
比例：1:8，4K图片，非常清晰，非常精细的文字渲染

以及实际应用中直接要求它修改比例的时候，它的比例填充修改效果也还是很不错的。

再就是多轮编辑与 Thinking 模式，其实也很不错。篇幅确实太长了，下次有机会再写吧

小结

我的个人建议：如果只能用一个，质量要求高的场景还是选 Pro。Nano Banana 2 在整体画质和细节精度上确实还差 Pro 一点，这个不用回避。

如果希望性价比更高，可以当成两个工序。

Banana 2 负责探索阶段，快速跑方向、测构图、测文字排版、出 10 个变体看哪个感觉对，成本低、速度快，试错不心疼。Pro 负责交付阶段，方向定了，把选定方案推进到最终交付的品质。

这样既保证了效率，也没有牺牲最终完成度。当然大家也可以根据自己的预算和需求来判断怎么搭配。

好啦，关于 Nano Banana 2 的分享先到这里，还有很多实用用法和创意，下次有机会再分享。

作者：阿真Irene

来源：阿真Irene

Nano Banana 2 的8大新玩法！

青瓜传媒 — Tue, 03 Mar 2026 01:10:52 +0000

最近，AI圈有三大奇观：养龙虾，等种子，玩香蕉。

而今天，「香蕉2」正式发布了，官方名字Gemini 3.1 Flash Image。

一看这个名字，你就能明白，谷歌这是把Nano Banana的能力 + Flash的速度，直接合体了。

我们的老朋友lovart.ai，也第一时间接入了2，付费会员依旧0积分体验。

先给大家简单做一个总结：

1）2整体性能和Pro差距不大，部分场景甚至略有退步。

2）多文字生成，依旧容易乱码（尤其是中文）。

3）核心是价格直接砍半。一张1k图，Pro要0.134美元，2只要0.0672美元。

4）同时，速度大幅提升。API可以做到2秒出图，每分钟能够稳定输出347-356张图。

5）新增4:1、1:4、8:1、1:8等超宽/超窄比例，覆盖更多设计场景。

6）新增512px低分辨率选项，加上已有的1K、2K、4K，开发者可以按需选择。

7）内置web图片搜索，可以实时从网上搜索参考图来生成图片。

8）一致性增强，单任务可保持5个角色和14个物体的一致性。

01 一手实测

虽然整体性能没有质变，但2在「玩法层面」的扩展，明显更有意思了。

下面，给大家分享我实测下来最有价值的几个玩法。全部基于Lovart平台完成。

1）一键修改素材画幅

比如，这是2的海报，1:1比例。

我们想把它换成16:9的比例，上线平台换成Lovart，同时保持原图的画面结构、UI元素和文字不变。而且原图是我从x上下载的，分辨率很差，只有680×680，我想把它换成2K的。

于是，上传参考图，输入提示词。提示词：修改画幅尺寸为16:9，文字改为中文，2K。

初版给我们的图，有些文字没对。没关系，我们点击这张图，选择“文字编辑”，直接替换文字就可以了。

而且，我还注意到，他们家又上新了一些编辑功能，更实用了。

来看下最终版的图片。

这下子清晰多了，而且文字也全部换成了中文，整体结构也与原图保持一致。

对于设计师来说，2+Lovart的这套玩法真的非常实用。过去，我们想要调整这样一张海报图的尺寸，如果拿不到PSD源文件，基本无解。

即使有PSD源文件，也要忙活几个小时。而现在，只需要几秒钟。

对于设计师来说，这已经不是提效，是降维打击。

2）一键设计极宽幅图片

这次，2新增了4:1、1:4、8:1、1:8等超宽/超窄比例，加上原有的1:1、16:9、9:16、4:3、3:4、3:2、2:3等比例，设计场景一下子宽了很多。

特别是8:1和1:8这个极宽幅比例，拿来干Banner图、电商详情页、装修全景图、商场围挡、户外广告和游戏侧壁非常好使，能给人一种极致的沉浸感。

还是前面这个图的风格，我们结合2的模型要点，来设计一张8:1比例的Banner图。

提示词：

参考这个图{参考图}的布局和设计风格，提炼下面的文字，设计一张8:1的Banner图，来介绍Nano Banana 2模型的核心要点。——

简单总结一下Nano Banana 2：

1）整体性能与Nano Banana Pro没多少区别，部分场景甚至还略有退步。

2）多文字情况下，依旧容易出现乱码，尤其是中文。

3）核心是价格下降，输出一张1k图，Nano Banana Pro要0.134美元，Nano Banana 2只要0.0672美元，降了一半。

4）同时，速度也大幅提升。API可以做到2秒出一张图，一分钟能够稳定输出347-356张图。

5）画幅比新增4:1、1:4、8:1、1:8等超宽/超窄比例，覆盖更多设计场景。

6）分辨率新增512px低分辨率选项，加上已有的1K、2K、4K，开发者可以按需选择。

7）内置了web图片搜索，它可以实时从网上搜索参考图，来生成图片。

8）单任务中，最多可以保持5个角色和14个物体的一致性。

还行，但不够精美。

于是，我又设计了一版提示词。提示词：模仿清明上河图的风格，画一张现代的【地名】的风俗画，8:1比例，2K。

这是重庆山城

这是上海外滩。

这是杭州西湖。

这是成都春熙路。

我把这套提示词和样图丢群里，很多小伙伴都觉得太了。

实际上，基于这套提示词还可以延伸出很多玩法。比如航拍版杭州。提示词：模仿高清摄像机的风格，画一张现代杭州的著名地标图，4:1比例，4K。

by@绛烨

吉卜力版佛山顺德。提示词：模仿高清摄像机的吉卜力风格，画一张现代顺德著名地标图，4:1比例，4K。

by沃垠AI群友@邓

提示词：生成一张8:1的深圳天文台的日落图。

3）一键联网查找参考图

这次，2还有一个独特功能，就是内置了Web图片搜索。

模型不再只是靠训练数据里的「记忆」来画图，它可以实时从网上搜索参考图，然后基于这些真实图片来生成新的图。

这个能力，不仅能让2降低幻觉，也能拓展使用场景。

比如，生成成都今天的天气信息图。提示词：设计一个关于今日成都天气的信息图，包括温度、湿度和穿衣建议。

2会先搜今天成都的真实天气数据，再生成准确的信息图，而不是瞎编一个数字。

也可以让它做一些信息图和图鉴。提示词：设计一张信息图，介绍Nano Banana 2模型。

提示词：设计一张图鉴画，介绍黄腰柳莺。

4）一口气批量出图

这点，是我觉得最被低估的能力。

还记得春晚cos“天命人”的宇树武Bot吗？

现在，它要去闯荡江湖了，我们在Lovart上用2模型，可以一口气生成20张分镜图。提示词：以这张图片的机器人为主角，参考《雪中悍刀行》的场景，以水墨黑白条漫的极繁主义风格，展示机器人闯荡江湖的过程，生成20张动画分镜，如同剧中形象般生动。

所有分镜均保持了主体一致、风格统一，有完整的故事线。

又比如，我们有一张女主图片，可以在Lovart上一口气生成8个场景的图片。提示词：生成图中主体人物在公园、樱花树、图书馆、办公室、日式餐厅、火车、飞机、巴黎街头8个场景的图片，统一尺寸16:9，保持服装和外貌完全一致。

女主一直穿着相同的白色衬衫和黑色裙装，发型和面部特征也统一，并未“换脸”。

理论上，Lovart Agent支持超长上下文，可以一次性生成100张以上的图片，依然能保持一致性。

加上Lovart又有很多视频模型，生成后的图片可以直接创作视频。用它来搞漫剧、短剧，已经是内容生产线级别的能力了。

这点，跟Gemini只能一张一张图的生成，体验还是不同的。

写在最后

整体体验下来，我的结论是：

2依然是当前最能打的图像模型，能力独一档。

在做到更快、更便宜的同时，性能并没有降智，反而新增了一些更实用的功能。

配合Lovart独家的画布功能和编辑功能，可以有更多的玩法。

而且，它对提示词几乎不挑。一句模糊的描述，一个感觉，一个方向，它都能接住。

只要你有想法，它就能有结果。

关键在于：你，到底想用它做什么。

作者：沃垠AI

来源：沃垠AI

Nano Banana 2 的20个真实案例和提示语！

青瓜传媒 — Mon, 02 Mar 2026 08:54:03 +0000

昨天跟大家简单说了Nano Banana 2上线以及它的一些能力，实测Nano Banana 2，这次香蕉可算掌握4K多图片多尺寸了。

然后跟大家立flag说我今天会出一篇Nano Banana Pro和 Nano Banana 2的效果对比。

我的年费Lovart第一时间上线了Nano Banana 2，而且Gemini里现在都没有办法主动切换Pro还是2

所以我和Lovart 一拍即合，从人物海报、产品设计、推理能力、分格漫画、多文字信息图、文字翻译6个方面对比了20个case，让大家全方位地感受 Nano Banana Pro 和 Nano Banana 2 的区别。

Here we go！

老规矩，因为有的图片提示语很长，所以给大家整理了文档，后台回复“banana2”就可以了

ps.下面的所有对比图顺序都为左边是原图，中间是Banana Pro生成，右边是Banana 2生成。

先看几组人物海报，这张图我是让Banana Pro（中间）和Banana 2（右边）把我的照片改成黄色寸头，然后做了一个 Vogue 风格的封面。可以看到，两张图在人脸部分其实没什么太大区别，但是一张保留了眼镜，一张没有保留。其实这个我并没有给出具体的提示，整体上来看差别不大。

再看看直接通过文生图，让Banana Pro（左）和Banana 2（右）以同样的提示语做了一张巴黎世家的人物贴图海报，人物形象、画面构图以及文字展示，都是让它根据巴黎世家的品牌调性去设计的。实际上可以发现，从普通人的视角来看，其实看不出太大的区别，都还挺帅的。

但是到了全身照这里，我同样用了自己原本的那张自拍图，但会发现Banana 2（右）全身照的人脸和我原本的脸相差了很多。

然后再看一张设计感比较强的照片。图片是用各种各样的手机屏幕设备，把我的脸拼接在一起。实际可以看到，Banana 2（右）的执行能力会稍微差一点，首先设备的选择就不太对，有一些屏幕根本就不是正常设备里面的屏幕，而且整个画面的拼接也有点错误。

然后我们来看关于产品，以及一些品牌设计相关的展现，首先是做一个KITKAT的信息图展现，Banana Pro（左）做出来的图片，整体来看确实更美观一些，大家可以检查一下这里面的文字信息，因为我让它填补的文字信息比较多，可以对比检查一下文字信息有没有错误。

然后是做一个创意logo的展现，区别也不大，Banana Pro（左）给这个 logo 加了一个底色，和原图更加贴近。但像Banana 2做的这种纯文字渲染的 logo 也挺好看的。

还做了一个比较好玩的尝试，是把给到的产品图做成一半实体、一半具有科技感的虚拟线效果。事实上，不管是 Banana Pro（左）还是 Banana 2（右），这两个产品的展现效果和细节处理都非常出色且丰富。

关于品牌这块，我还做了一个比较经典的图，是可口可乐的发展信息图，文字信息包含得也很多，整个产品罗列整体上看是没有什么区别的。左边 Banana Pro 给出了塑料瓶装的可乐，但是没有听装的；右边Banana 2是有听装，但没塑料瓶装。因为给出的提示语比较泛概念，让它自己去查找信息并根据自己的世界信息去推理生成的。所以这两张图在我这里来看区别不大，整体完成质量都很高。

然后还给了一个手机皮套的图，整个的光影质感在我看来区别也不大，整个产品的细节展示也都很好，从审美的角度来看，我可能会更喜欢右边 Banana Pro 生成的这个效果。

再看看推理能力的对比，首先是根据一句诗句“采菊东篱下，悠然见南山”，让它给我想象并画出对应的画面。Banana 2（右）画出了一个更加完整的展现，把诗句补全并写在了画面上，整体来看，表现都还是很不错的。

然后我又让它们给我画了一张高中物理课本风格的插图，展示小球的平抛运动轨迹。清晰标注初速度 v0（水平方向）和重力加速度 g（垂直向下）。

有没有物理学好的人，来给我看一下这两个图画得都对不对。。。

再来个数学好的，给我看看这道数学题，他们两个解得都对不对哈哈哈哈哈

然后给它们两个角色，让它们画这两个角色的分格漫画。可以看到，其实 Banana 2表现得会更好，它会画出更加完整的一段剧情，画面也会更加丰富。

包括我给到它的部分，可以指定它想要的那种漫画风格。我给到它我们家小猫的照片，让它们做一个鬼灭之刃画面风格的冒险漫画，也是 Banana 2（右）的画面细节会更多一点，设计的剧情也更丰富一些。

其实上面很多图里已经可以看到文字的展示了。Banana 2现在的表现，对于多文字的展现实力依旧不弱，甚至我觉得使用起来会感觉更稳定。

接下来这几组对比，都是比较关注在文字上的。比如之前 Banana Pro 时期就已经很火的玩法，让它扮演一个角色，并根据你给的主题去设计一张海报。

可以看到 Banana Pro（左）整个的配图会更多，文字排版也会让视觉感受更加舒服。但是 Banana 2（右）放入了更多的文字，整体还是根据大家各自的审美需求来选择，这一部分我个人会更偏向于 Banana Pro。

再到大家会比较关注的，这种画攻略图和画菜谱图，其实我个人感觉差别不大。你想要的文字信息，它都能够展示出来，表现也都比较稳定。

那从给图片上的翻译角度上来说，像Banana 2（右）对于原图的改变就会比较大，它连背景都调整了一下。

那关于漫画上色的这一部分，从我个人体验上来说，Banana 2（右）得到可用的、文字内容不错乱的画面的抽卡次数会少于 Banana Pro（左），因为我记得当时给 Banana Pro 抽这个翻译的时候，至少抽了十几二十次吧，但是现在 Banana 2 基本上三四次就能得到一张可用图。

而且配合上我们之前介绍过很多Lovart中专业的图像二次编辑功能，比如说精准编辑-Touch Edit、编辑文字、样机Mock up、图片分层编辑等等，具体使用方法可以看我之前的文章。

有了Banana2后，我想看看设计Agent能不能活下来

现在加上 Banana 2 更快的速度以及更便宜的价格，实际上能够实现更大批量的图片输出。

终于测完了，现在大家的感受肯定更直观了。

我是感觉，随着模型的迭代，实际上可以给大家更多的选择，这中间其实不存在模型能力的下降，而是看你到底需要做什么，它能够匹配你更精准的需求。

如果你想追求更高质量，可以选择多花一点钱，选择 Banana Pro，如果你想快速出预览，或者追求更快的速度和更高的性价比，其实 Banana 2 就完全够用了。

那现在，我又开始坐等下一款香蕉Pro2的诞生了。

作者：卡尔 & 阿汤

来源：卡尔的AI沃茨

Nano Banana 2 全网最全攻略

青瓜传媒 — Mon, 02 Mar 2026 02:50:59 +0000

Google的Nano Banana系列图像模型迎来重磅升级，Nano Banana 2以闪电般的速度和超高性价比刷新文生图体验。

这款代号gemini-3.1-flash-image-preview的模型支持4K分辨率、极端宽高比和多轮对话式编辑，更拥有实时搜索、多图融合等独门绝技。

本文将全面解析模型特性、使用技巧与API调用方案，助你在创作效率与质量间找到完美平衡点。

昨晚正在用 Nano Banana Pro 生成文章配图呢，突然Nano Banana2跟鬼一样就出现了，我以为网站卡了

刷新了下发现真的出了一个Nano Banana 2，没来得及测试，我先去Twitter找它们官媒账号，发现没有任何宣传…

我以为是把Nano Banana Pro改了个名，所以不慌不忙的就试用了下，结果……

每次测试生图模型的时候，我一般都会写一个复杂的提示词，把画面元素拉满！

如果效果不好再依次递减元素和要求，算是我的一种测试模型能力边界的习惯吧……

在当时测试Nano Banana Pro的时候，也是这个提示词，这张图可以看出是非常密集的元素了，但是没有抽卡，一次直出

虽然 Nano Banana Pro 输出的也相差无几，但Nano Banana 2 的速度比 Nano Banana Pro 要快非常多！

说实话，我第一次听到Nano Banana这个名字的时候是懵的。

Google 在给模型取代号这件事上一直挺神秘，直到我去翻官方文档，才搞清楚这其实是他们图像模型系列的内部代号体系——Banana 家族，Nano 级别对应的是 Flash 效率版，Pro 级别就是 Nano Banana Pro。

而Nano Banana 2，真正的模型名称叫gemini-3.1-flash-image-preview

昨晚刚出的模型，在 HuggingFace 的排行榜上，现在已经全球文生图综合第一了……

但不管怎么说，我觉得值得认真介绍一下这个东西 ——便宜、强、快！

这篇，我会把我知道的全部整理进来，从模型是什么、怎么用、在哪里用、API 怎么调，到提示词策略，能写多细就写多细。你可以按目录跳到自己需要的部分，不用从头读。

一、模型介绍

1.1 先搞清楚 Nano Banana 是什么

Google 给自家图像模型取了一套水果代号，用来和普通的 Gemini 文本模型区分——这套代号目前就两个级别：

Nano Banana= Gemini Flash Image 系列（效率级，追求速度和价格）
Nano Banana Pro= Gemini Pro Image 系列（专业级，追求质量和细节）
Nano Banana 2 是 Nano Banana 的第二代，官方模型 ID 是 gemini-3.1-flash-image-preview。

有一点容易混淆的是：调 API 的时候要用 gemini-3.1-flash-image-preview，不是nano-banana-2。

nano-banana-2 只是一个别称，别搜错了。

它的定位很清晰——Gemini 3 Pro Image 的高效率对标版本，主流定价，低延迟，专门为大量调用的开发者场景设计的。

1.2 模型能力边界

Nano Banana 2 能做的事大概是这些：

文生图：给文字描述，出图。这是最基础的，不用多解释。
图像编辑：传入一张图 + 文字指令，然后模型帮你加东西、删东西、改风格、换色调。这个体验比很多专门的编辑工具顺手。
多轮对话式编辑：这个是我最喜欢的功能。你可以在同一个对话里持续迭代，说”把背景换成夜景”，然后再说”把人物的衣服改成红色”，模型会记住上下文，一步步改过去。官方也特别强调这是推荐的使用方式，我深度认同。
图文混合输出：可以同时输出图像和配套文字，比如让它生成一张光合作用的信息图，它会把图和说明文字一起给你。
实时搜索：这个是 Nano Banana 2 的独门绝技，而且连 Nano Banana Pro 都没有完整支持。它可以调用 Google 搜索和 Google 图片搜索的实时信息来生成图像——比如让它画一张最新的某场球赛比分图，它真的能联网查然后生成。后面测试部分会重点展示这个。
多参考图融合：最多支持传入 14 张参考图，其中最多 10 张物体参考图（高保真复现）+ 最多 4 张角色参考图（保持角色一致性）。这个对做 IP 内容的人来说绝对是利器。

1.3 技术参数一览

有几个参数我觉得特别值得单独说一下：

分辨率这块，Nano Banana 2 新增了 0.5K、2K、4K 三档，之前的前代 Nano Banana 只有 1K。

4K 图的细节密度是 1K 的 16 倍，对做印刷物料的人来说这个升级很实用

宽高比也是本次的大升级，新增了 1:4、4:1、1:8、8:1 这几个超极端比例。1:8 适合做超长竖版手机壁纸或长图海报，8:1 适合做横幅 Banner。

以前很多场景要用 PS 拼接，现在直接出

Thinking 模式这个要理解一下 —— 所有 Gemini 3 图像模型都是思考型模型，Thinking 是始终启用的，不能关闭。

Nano Banana 2 的特别之处是你可以控制 Thinking Level，默认是 minimal（最小思考量，速度最快），也可以设置成 high（高思考量，复杂场景画质更好，但耗时更长）

1.4 Nano Banana 2 和 Nano Banana Pro，到底选哪个？

我自己的选择标准很简单：

选 Nano Banana 2 的场景：日常创作测试、批量内容生产、对延迟有要求的 C 端产品、预算有限、快速原型验证；

选 Nano Banana Pro 的场景：要出商业级精品素材、提示词非常复杂、对细节要求极高、不在乎多花一些钱和时间。

老实说，我日常 80% 的需求用 Nano Banana 2 就搞定了。

所以从质量来说，还是Nano Banana Pro 更顶尖，但是如果是要商用或批量，Nano Banana 2 更具有性价比。

二、模型使用

2.1 官方渠道

Gemini 官网 & App

最简单的入口，适合零代码用户直接上手体验。打开Gemini，登录 Google 账号就能开始对话式出图。

移动端直接在手机应用商店搜 Gemini 下载 App，体验是一样的。

使用方式就是普通聊天，直接用中文说你想要什么图就行，比如”帮我生成一张赛博朋克风格的上海街景，霓虹灯，雨后积水倒影，垂直构图”，然后等它出图，再在同一个对话框里继续修改。

这里并不会显示模型版本，但是默认Nano Banana 2 是快速模式，所以把模式切换成Fast即可

Google AI Studio

这个是我平时用得最多的调试工具，而且一般Google上新模型都会先上这个。

进入AI Studio，在左侧模型选择器里找到 Nano Banana 2（gemini-3.1-flash-image-preview）。右侧面板可以直接配置参数：

Output format：可以选”Images & text”（图文混合）或”Images only”（纯图）
Aspect ratio：宽高比，选 Auto 或者手动指定
Resolution：分辨率，1K/2K/4K/0.5K 都在这里切
Thinking level：Minimal 或 High
Grounding with Google Search：勾选后可以开启搜索，还能单独开 Image Search
调好参数之后直接打提示词，出图效果直接可见。

Google Flow

Google Flow 是 Google 推出的 AI 驱动工作流工具，Nano Banana 2 已经集成在里面了。

它比 AI Studio 更偏向工作流自动化，可以把图像生成嵌进更大的业务流程里，比如自动生成内容后直接发布。对普通用户来说可能 AI Studio 就够了，Flow 更适合想要搭自动化流水线的团队。

但是这个工具网站有 150免费信用积分，这个羊毛可以薅！

2.2 第三方平台

国内用户如果在访问 Google 服务上有阻碍，或者想在一个平台同时用多个模型做对比，第三方平台也是很好的选择

Lovart

Lovart 就不多介绍了，一个设计Agent工具，非常迅速，已经集成了 Nano Banana 2。

进入Lovart，注册账号后就能直接用。和 AI Studio 不同的是，Lovart 的产品逻辑更偏向设计师——它会帮你把生成、排版、品牌应用这些环节串起来，适合做海报、品牌物料、插画这类有完整设计需求的场景。

如果你是设计师或者内容创作者，Lovart 更顺手一些。

YouMind

YouMind ，使用流程一样是注册账号、充值、选模型、输入提示词，按 Token 或按次计费。关键是每天送1000积分，这个羊毛也要薅！

关于第三方平台，其实还有很多，比如Genspark、Skywork等，只不过手慢了点，这会儿还没上线，不过后面也会陆陆续续上的。

所以我建议穷逼玩家，咱直接就辗转多个平台蹭免费积分就完了！薅羊毛都够生成很多素材了

2.3 API 调用

这部分面向开发者，我会把三个路径都说清楚。

Google 官方 API

最直接的方式，在 AI Studio 里拿到 API Key（Settings → API Keys → Create API Key），然后用官方 SDK 调用。

几个参数要注意的细节：

分辨率参数必须用大写 K（1K、2K、4K），官方文档特别标注了小写会被拒绝。

Thinking Level 可以通过thinking_config参数控制，默认 minimal，复杂场景可以设 high。

开启搜索（Grounding with Google Search）里面，IMAGE_SEARCH 这个功能只有 Nano Banana 2（3.1 Flash）支持，Pro 版没有，这是 2 的独家能力。

关于价格，Nano Banana 2是目前性价比极高的选择，其成本仅为Nano Banana Pro 版本的约1/4甚至更低

AIHubMix（国内友好）

AIHubMix 这个第三方模型服务厂商也非常迅速，已经上线了 Nano Banana 2，国内访问很顺畅，兼容 OpenAI 格式调用，对已经用过其他 AI API 的开发者上手成本极低。

进入AI HubMix，注册充值后在模型列表里找gemini-3.1-flash-image-preview。

但注意：AIHubMix 的 OpenAI 端点不支持 4K 分辨率，默认 1K，宽高比通过 system message 传入，这个和官方 SDK 的参数方式不太一样，初用的时候容易踩坑。

OpenRouter（国际路线）

OpenRouter 的模型 ID 是 google/gemini-3.1-flash-image-preview

不知道为啥，Nano Banana 2 的定价比其他渠道都要便宜些，延迟约 13 秒，正常运行时间 100%，适合海外用户或需要多模型路由统一管理的团队去用

三、模型测评

就不再分维度去测试了，本质上来说是直接蒸馏出来的一个小模型，甚至可能在某些方面还不如原来的版本…..

既然特点是便宜、强、快！只有快这个点可以数据统计下，所以每张图我都会用手机计时，将生成时间&抽卡次数标记上：

23s直出未抽卡：创作一幅逼真的《Vogue》杂志封面风格的时尚肖像。一位年轻优雅的女性自信地摆出姿势，保持其原有的面部特征和自然美。她左眼眨动，露出俏皮的鸭嘴表情。双手抬起，在脸部附近形成一个爱心手势。她被周围的多个单反相机和智能手机包围，仿佛狗仔队和摄影师正从各个方向捕捉她的身影。一些手机屏幕上还显示着她的实时图像。

外观与造型：无瑕的肌肤光泽，自然妆容搭配光泽粉唇、柔和腮红和微妙高光。浅棕色头发整齐地盘扎成低发髻，仅有几缕散落。

服装与配饰：优雅简约的米白色无肩带晚礼服，路易威登项链，钻石戒指，奢华时尚珠宝。

摄影风格：特写至半身时尚肖像，Vogue杂志编辑美学，电影级专业工作室灯光，柔和的HDR背景，浅景深，逼真的皮肤纹理，超细节，8K画质。

相机与镜头外观：专业单反外观，85mm镜头感觉，f/1.8光圈，清晰对焦，背景散景柔和。

构图：Vogue杂志版面，顶部有大而醒目的标志，编辑时尚封面框架，干净优雅的设计。

氛围与感觉：俏皮而奢华，高级时尚美容编辑，逼真，非AI感，由专业时尚摄影师拍摄。

48s联网检索直出未抽卡：请根据 THE 2028 GLOBAL INTELLIGENCE CRISIS 这篇文章，遵循以下指南，制作一个卡通风格的信息图表：

– 手绘插图风格，横向（16:9 宽高比）。

– 加入少量简单的卡通元素、图标或著名人物，以增强视觉趣味性和记忆度。

– 如果内容包含敏感或受版权保护的图形，请用视觉上相似的替代品替换它们；不要拒绝生成插图。

– 所有图像和文本必须严格遵循手绘风格；避免使用写实视觉元素。

– 保持信息简洁，突出关键词和核心概念。利用充足的空白来清晰地强调关键点。

– 图中文字请使用中文。

18s直出未抽卡：在构图的正中央，食材层上方醒目地悬浮着一个奢华的标题标签。文字为“担担面 DAN DAN NOODLES”，采用富有表现力的手写毛笔字风格。字母呈现出厚重、三维雕刻的金色金属质感，并经过拉丝处理，散发出温暖的金色光泽，在工作室的强烈灯光下，反射出逼真的金属光泽。它看起来就像锻造的金笔触，在空间中漂浮。高级中式面馆食品海报，以解构式层次展示的担担面/辣子川面在纯黑色背景上垂直堆叠。从顶部到底部（主金色标题下方）共有七层，且在最后一道菜前留有额外间距：

*顶层：一堆鲜红的干辣椒片和金黄色的花椒粉

*第二层：淡黄色的碎花生和鲜绿色的葱花碎屑散落其中

*第三层：淡黄色的手工碱水面卷曲着，纹理清晰可见，面条根根分明

*第四层：黄豆芽（芽菜）和鲜绿色的豌豆散落其中——这些蔬菜会先放入碗中

*第五层：透明的玻璃碗中盛放着深红色的辣子油汤，可见漂浮的辣椒片，汤面光泽映照——这汤底浇在蔬菜上，因此在垂直堆叠中看起来位于蔬菜下方

*第六层：空白空间——较大的间隙，只有微妙的浮油滴、蒸汽缕和小颗粒食材飘落，营造出视觉上的分隔和呼吸空间

*底层/最后一层（上方间隙明显更大）：一盘完整的担担面盛放在传统的深棕色陶瓷碗中，从与上方所有其他层次相同的45度角视角观看。碗中汇集了所有食材——淡黄色的面条裹着光泽的红辣椒油，上面撒着碎花生、鲜绿色的葱花碎屑、黄豆芽、豌豆和红辣椒片。

面条看起来刚拌好，油光闪闪，微妙的蒸汽升起。这盘成品与上方解构式食材的尺寸和视角相同。上方的额外间距强调了这是最终结果，生动地展示了从分离的食材到完整菜肴的转变过程。每一层之间都留有间隙，展现出纹理和细节。

第1至5层之间保持正常间距。

第6层是特意留空的过渡层，间距是正常间距的两倍或三倍。

第7层（成品菜肴）位于底部，视觉上清晰分隔。中英双语标签，配有优雅的箭头指向每个配料：“辣椒油&花椒粉 Chili Oil & Sichuan Pepper Powder”，“麻辣风味 Numbing & Spicy Flavor”，“花生碎&葱花 Crushed Peanuts & Scallions”，“手工碱面 Handmade Noodles”，“芽菜&豌豆 Yacai & Peas”，“丰富配料 Rich Toppings”，“红油汤底 Spicy Red Broth”，“成品 Finished Dish”。无白色底座，无平台基座。所有图层在纯黑色背景中自由漂浮。45度角戏剧性的工作室灯光，边缘照明突出了纹理和玻璃碗的透明度。包括成品碗和顶部金色标题在内的所有图层，在灯光、视角和逼真度上保持一致。微妙的蒸汽效果，油滴在图层周围漂浮，空旷的过渡空间中有更多颗粒。成品盘右下角有星星闪耀效果。暗色调美学，豪华商业食品摄影风格，超逼真，细节丰富，专业餐厅广告品质，9:16竖屏格式。

14s联网检索直出未抽卡：高保真、广角现代客厅内景，赛博阴影2D动漫和卡通角色无缝融合。场景将逼真的3D环境与互动动漫角色如哆啦A梦、野比大雄、迪迦奥特曼和蜡笔小新等结合，呈现出梦幻、电影般的审美风格。画面比例：16：9

23s直出未抽卡：将图1中的雷军替换成图2，风格保持和原雷军形象统一的风格。正下方的”雷军”二字改成”小普”；右下角的小米logo风格不变，但”MI”改成”XP”

63s直出无抽卡：根据上传的草稿图生成真实场景分镜总览图

四、提示词策略

4.1 Nano Banana 2 提示词基本框架

官方文档其实给出了一个很重要的核心原则，我翻译一下：描述场景，不要只堆关键词。

模型的语言理解能力很强，一段描述性的段落几乎永远比一堆孤立的词效果好。我自己用下来总结了一套提示词框架，大概这样：

[画面主体描述] + [场景/环境设定] + [风格/艺术参考] + [光线/色调] + [构图/视角] + [技术参数]

举个例子，与其写”一个女孩，城市，赛博朋克，夜晚”，不如写：

一位独自的年轻女子穿着透明的雨披站在街角，在雨淋淋的赛博朋克东京，2077年。她脚下的湿漉漉的人行道上反射着日文的全息广告。情绪化的电影色彩分级，以主导的霓虹蓝和洋红色为主。低角度摄像机略微向上看，营造出戏剧性的比例感。使用变形镜头拍摄，信箱裁剪，胶片颗粒。

差别很大的，真的。

4.2 官方推荐进阶策略

官方文档里有一套 Best Practices，我觉得含金量挺高的，整理翻译一下加上我自己的理解：

极致具体（Be Hyper-Specific）：与其说”奇幻盔甲”，不如说”精美的精灵板甲，蚀刻银叶纹路，高领，肩甲形如猎鹰翅膀展开”。

细节越多，模型能发挥的空间越小，你能控制的空间就越大。

这个道理懂，但真正做到需要一定的练习。

提供用途背景（Provide Context and Intent）：告诉模型这张图是干什么用的，会显著影响结果。”创建一个高端极简护肤品牌的 Logo” 明显比 “创建一个 Logo” 好。

模型会根据用途语境自动调整风格基调。

迭代而不是重做（Iterate and Refine）：这个我强调过了，利用多轮对话，不要每次都从零重写。

出图之后说”很好，但光线再暖一点”、”保持不变，把表情改严肃一些”，效率和效果都比重来强。

分步骤描述复杂场景：对于元素特别多的复杂场景，可以把提示词拆成几步来写，类似”先创建一个清晨雾气弥漫的森林背景，然后在前景加一座苔藓覆盖的古代石祭坛，最后在祭坛上放一把发光的剑”。

层次感很清晰，模型处理起来比一段话堆下去更可控。

语义化负向提示（Semantic Negative Prompts）：官方给的建议是，与其说”没有汽车”，不如正向描述”一条空旷的街道，没有任何交通的迹象”。

我觉得这个思路有点绕，但逻辑是对的——用场景感替代简单的否定，效果更稳定。

用电影语言控制构图：广角镜、微距镜头、低角度仰拍、荷兰角、鸟瞰俯视，这些词对模型都有效，跟真正的摄影术语是绑定的。

4.3 常见提示词误区

做了这么多测试，踩过不少坑，这里说几个最常见的。

误区一：关键词堆砌。

见过很多人写提示词就是”超高清，8K，电影级，大师作品，获奖摄影，写实，逼真，HDR，精细，完美”……然后图出来依然很一般。

这类词不是不能用，但它们不能替代对实际画面内容的描述。

先说清楚你要画什么，再加上质量类关键词，顺序很重要。

误区二：中英文混杂。

提示词里中英文混着写，我自己测下来效果不如纯英文稳定。

Nano Banana 2 对中文语义理解是没问题的，但如果你对输出质量要求高，建议全英文提示词，尤其是涉及风格、光线、构图这些专业词汇时。

误区三：描述本身产生矛盾。

比如”一张极度写实的照片，赛博朋克动漫风格”——写实和动漫是两个方向，模型会困惑。

要么写实，要么动漫，别让它猜。

误区四：期待第一张图就完美。

这个思路本身就是问题所在。

用好多轮对话才是正确姿势，第一张图是起点，不是终点。当然Nano Banana系列本身能力比较强，一般来说很少会频繁抽卡，我最多也就抽卡4次。

误区五：忘了告诉模型输出格式。

如果你只要图，明确写”仅输出图像，无需文字说明”；

如果你需要图文并茂，写”提供所生成内容的伴随描述”。

不说的话，模型有时候会自己加一堆乱七八糟的说明文字，体感不是很好。

五、优质提示词资源

说完技巧，最后推荐几个实用资源，有很多同学每次看到模型更新，技痒难耐，但是真到了测试模型突然感觉脑子空白，一句话也憋不出来干着急。（我也是）

所以有一些优质提示词作为参考的话，可以快速调整就能用来测试了！

BestPromptClub

Studentdiscount.io

这两个网址专门收集了 Nano Banana系列出的优质案例，Prompt可以一键复制。

包括这两个工具平台也有专门的 Nano Banana系的提示词资源：

YouMind

Fotor

还有就是Github上有非常多的开源提示词库，我搜集了一些：

直接搜：

JimmyLv/awesome-nano-banana

PicoTrex/Awesome-Nano-Banana-images

songguoxs/gpt4o-image-prompts

ZeroLu/awesome-nanobanana-pro

ZHO-ZHO-ZHO/ZHO-nano-banana-Creation

YouMind-OpenLab/awesome-nano-banana-pro-prompts

至此，燃尽了……

以前用 Banana Pro 画图，一张 1K 的图就要一块钱。

这次更新的 Nano Banana 2 终于把价格打了下来，腰斩了一下，差不多五毛一张图。

说白了，这次最大的特点，其实就是更快更便宜了。

主要是借此，直接把Nano Banana这个系列的使用渠道以及对应的一些资源技巧做个总结

作者：小普

谷歌发布Nano Banana 2：AI 生图进入“白菜价”肉搏战

青瓜传媒 — Sat, 28 Feb 2026 01:34:57 +0000

当地时间2月26日，谷歌正式推出其最新一代图像生成模型Nano Banana 2。

该模型基于Gemini 3.1 Flash架构，核心变动在于将此前仅面向Pro级别用户的文本渲染、实时数据检索和复杂指令遵循能力，下放至Flash产品线，并将生成单张1K分辨率图像的成本降至0.067美元，约为OpenAI GPT Image 1.5同类定价的一半。

1.定价打到临界点，企业规模化应用成为可能

这一价格调整直接改变了企业级用户采购AI生成服务的成本结构。

在电商广告、社交媒体素材和营销物料生成等高频场景中，单张图像的成本已降至可规模化应用的临界点。

此前，企业若需批量生成带有精确文字的视觉内容，主要选择集中在闭源API服务或开源模型的自部署路径，前者成本偏高，后者需投入工程维护资源。

Nano Banana 2的定价策略，试图在质量与成本之间提供更具可操作性的折中方案。

2.开源模型挤压，闭源必须调整身位

值得注意的是，此次发布的时间点恰逢开源社区密集更新。

十六天前，阿里巴巴旗下Qwen团队发布Qwen-Image-2.0，该模型在多项基准测试中与谷歌前代Pro模型表现接近。

智谱的GLM-Image 在复杂文本渲染专项基准CVTG-2K上的成绩，也已超越Nano Banana Pro。

开源模型的快速迭代正在挤压闭源API的定价空间，自部署的低成本优势对部分技术团队形成显著吸引力。

谷歌将高频刚需功能下放至低价位段，可视为对开源生态竞争的直接回应。

3.从艺术创作转向生产力工具

从应用方向看，Nano Banana 2强化了图像生成作为生产力工具的属性。

该模型支持根据用户输入生成水循环示意图，并可结合实时天气数据输出包含具体场景内容的图像，例如生成标注当前天气的靠窗座位视图。

这类功能将图像生成从单纯的风格化创作，延伸至知识传递和动态信息可视化的范畴。

相较于Adobe Firefly在Photoshop中的逐步嵌入，谷歌通过Gemini的检索能力将生图模型与实时数据打通，试图建立基于搜索生态的视觉生成入口。

在行业层面，AI图像生成正分化为两条路径：

一是以Midjourney为代表的艺术风格路线，强调审美溢价与创作自由度；

二是以谷歌、OpenAI为代表的生产力路线，侧重图文准确性、任务完成效率以及与业务系统的可集成性。

Nano Banana 2的发布表明后者正在加速商业化落地，其定价逻辑也反映出该路线的核心竞争要素已从单纯的技术指标转向综合成本与场景适配能力。

对企业用户而言，这一进展降低了部署决策的复杂度。在需要极致画质或复杂多主体叙事的场景中，Pro级别模型仍具不可替代性；而对于大规模、标准化、强调信息传递准确性的视觉物料生产，成本最优的选项已具备明确的可用性。

随着头部模型在基础生成质量上的趋同，价格、数据隐私控制、以及与现有工作流的集成便利性，正成为企业选型的关键考量。