谷歌世界模型 – 青瓜传媒

实测 Genie 3：20+个例子看懂谷歌世界模型

青瓜传媒 — Wed, 04 Feb 2026 01:58:06 +0000

上个月底，Google DeepMind 刚刚放出了 Genie 3：世界模型！

输入一句话，便给你生成一个 3D 世界，然后你可以在里面自由走动雪地里走两步，脚印都给你渲染出来了

这个视频里的雪山场景，提示词：

高海拔开放世界，可变形的雪地地形角色设定是：一个敏捷的登山者，可以全方向移动和跳跃

生成之后，你用键盘控制登山者在雪地里走，雪会被踩出痕迹，视角跟着你的操作实时变化用一句话生成的海洋，可以冲浪

这个冲浪的提示词更长：

无尽的海洋，巨大的雷鸣般的海浪，巨大的蓝绿色浪管在阳光下翻滚，成百上千的海鸥飞得很近，偶尔会挡住视线

角色设定：一块白色冲浪板的板头，直指海浪的浪管

海浪、海鸥、阳光…等等都进行了实时渲染，而你可以控制冲浪板在浪里穿行

要知道，Sora 生成的是一段固定的视频，你只能看Genie 3 生成的是一个世界，你可以操控，这便是「世界模型」

怎么玩到

现在只对美国用户开放，需要订阅 Google AI Ultra，$250/月

入口在 Google Labs 里，产品叫 Project Genie

https://labs.google/fx/projectgenie

在这里，访问别人创建的世界，比如旁边这个飞机

一花一世界，一叶一菩提

当然，也可以自己创建一个世界，点这个 Create your own 进去就行了短暂载入后，创建界面长这样

左边写环境提示词，右边写角色提示词

左边写环境提示词，右边写角色提示词：

环境提示词：可以描述你想要的世界，比如「木叶村的街道，有拉面店和火影岩」
环境提示词：可以描述你要扮演的角色或者控制的物体，比如「童年的漩涡鸣人」

填完点生成，等几秒钟，世界就出来了，这是一个可以游玩的世界

操作方法，就类似常规的 3D 游戏：

W、S、A、D 控制前后左右移动
上下左右箭头控制视角转动
空格键跳跃
但鼠标没啥用

WSAD 操作

每次能玩 60 秒，时间到了可以重新生成，这里我放一个我的录屏，可以看看

它能生成什么样的世界

讲真的，这些东西真的太牛逼了，我这里我用一些来自官方的例子，和大家一起看看

物理世界

从沙漠到海洋到极端天气。水有动态物理效果，雪地可以踩出痕迹，纸飞机掠过水面会有波纹

生态系统

动物有自己的行为模式。狐狸在草地上跑，鹰在山谷里滑翔，植物细节也能渲染

动画和奇幻风格

不只是写实。黏土定格动画、水彩画、针织毛毡，各种风格都能生成。有个演示是一只黏土小猫在图书馆里走，另一个是毛毡蜗牛在花园里爬

不同地点

雪山、外星地表、维多利亚街道、古雅典。有个演示里还有传送门，从维多利亚街道走进去，出来就是沙漠

环境一致性

你在世界里走了一圈回来，之前看到的东西还在原位

这其实比生成一整段视频更难。Genie 3 是自回归生成，一帧一帧往后推，误差会随时间累积。现在能保持数分钟的一致性，离开视野的物体大约一分钟内回去还能看到

可提示的世界事件你在探索过程中可以用文字改变世界。天气变化、添加新物体、引入新角色，都可以。有个演示是第一人称给房子刷油漆，油漆痕迹会留在墙上

核心能力

Google 称 Genie 3 是「第一个实时交互的世界模型」（the first real-time, interactive world model）

实时：20-24 帧每秒，720p 分辨率。你操作的时候，画面实时生成，没有明显延迟
世界一致性：你在世界里走了一圈回来，之前看到的东西还在原位。官方说能保持数分钟的一致性，之前离开视野的物体，大约一分钟内回去还能看到
从文字直接生成：Genie 1 需要图片输入，Genie 2 需要单张图片，Genie 3 直接用文字描述就行
自己学会的物理规则：水流、重力、光影、物体碰撞，这些物理效果是模型从视频数据里自己学出来的，没有硬编码物理引擎

更牛逼的用途

在 Google 的说法中，除了给大家玩，这个模型还有一个更牛逼的用途：让真实智能体，在仿真世界里训练

比如说 SIMA 2，也是来自谷歌，一个能在 3D 游戏里执行任务的 AI，通过读取屏幕画面，用虚拟键盘鼠标，来完成游戏内的操作

SIMA 2 在 Genie 3 里执行任务

现在把 SIMA 2 放进 Genie 3 生成的世界里。给它设定目标，比如「走向亮绿色的垃圾压缩机」，它能在生成的仓库环境里完成导航

SIMA 2 自我改进循环

更有意思的是自我改进。不少第一代智能体失败的任务，经过几轮自我训练之后就能完成，不需要人类额外标注数据

SIMA 2 在 Genie 3 里自我改进

世界模型能给智能体提供无限多样的训练环境，不用在真实世界里试错

当前限制

对于当前版本，依然有许多限制，Google 特别给列了出来

交互时长有限每次只能玩几分钟，不能连续玩几个小时

动作空间有限角色能做的动作目前只有基本的移动和跳跃，复杂动作做不了

多智能体交互难多个独立智能体在同一个环境里互动，目前还是研究难题

真实地点不精确没法完美复刻真实世界的具体位置

文字渲染有问题除非在提示词里明确写了，否则生成的世界里文字通常不清晰

还有一条没在官方限制，但更实际的：$250/月

最后

以 Genie3 的梦境，作为收尾一花一世界，一夜一菩提

作者：赛博禅心

实测Genie：传说中的世界模型被Google做出来了

青瓜传媒 — Tue, 03 Feb 2026 01:43:35 +0000

前几天，Google DeepMind 向外部开放了 Project Genie，可以算是世界模型 Genie 3 的实验性研究原型，也是这套世界模型第一次以可交互形态对公众开放。

目前，该原型率先向年满 18 岁的美国 Google AI Ultra（3个月125刀）订阅用户开放。

01 实测 Project Genie

与视频生成模型不同，Project Genie有两个promtps填写位置，左边填写环境的 prompt，右边写主角的 prompt，还能上传参考图片。选择用第一人称还是第三人称。

在输入提示词后，短短一分钟内，Project Genie 显示世界模型视频的“第一帧”，给用户一个预览，看看是否要进行调整。

我尝试了两次同样的提示词，差别还是有的。

如果对预览结果满意，就可以直接开始创造世界。

当世界生成完成后，用户即可接管角色，在世界中进行自由探索。

目前 Project Genie 支持约 1 分钟的可交互探索时长，分辨率为 720p。虽然时间和分辨率不是很前沿，但世界模型在这个时间点，最重要的是“控制”。

Project Genie 的人物控制方式接近传统游戏逻辑，用户可以使用 WASD 控制角色前后左右移动，同时用方向键可独立控制视角进行前后左右的镜头转动，最惊喜的是人物可以跳。

相比人物位移，视角移动明显更加流畅，响应延迟很低，整体操作手感更接近实时渲染而非视频回放。同时，系统内置了基础的物理约束，例如角色行进到场地边缘时会自然停下，而不是穿模或继续滑行。

从生成质量来看，Project Genie 与传统视频生成仍存在明显差异，但在“世界还原”层面已经相当完整。prompts中提到的球场、草地、傍晚光照、电子大屏、观众挥舞旗帜都被还原。此外，人物的初始位置同样符合语境，从中圈附近出发，身着简洁的训练服，与整体世界设定保持一致。

我们再来试试用图片生成世界。

这一次我们上传的是《艾尔登法环》的游戏画面。Project Genie 基本复现了原图的环境特点，具体效果直接看生成视频即可。

Project Genie 生成的世界是可以反复进入的。在这次测试中，我们选择了与之前足球场案例不同的路径，不再是平面移动，而是尝试纵向位移。

这个世界中人物初始位置就在悬崖边缘。于是我们让人物直接跳下悬崖。

从结果来看，表现相当完美。人物起跳、下落、落点的空间关系在视觉上是合理的，而且角色顺利落到下方路径，没有出现明显的空间错位。

第二次跳崖时，角色在下落过程中甚至因为蹭到岩壁而短暂“卡”了一下，这个细节很关键，说明Project Genie是真的在计算角色与环境之间的物理碰撞，而不是简单把物体抽象成一个个立体图像，细节用视频补足。

细节层面也有加分项。起跳时，脚下会扬起灰尘，落地瞬间，人物会有轻微屈膝的缓冲动作。这些都增强了动作的可信度。当然，还是有点瑕疵，在最后一个画面中，角色实际应该落在水面上，但并没有出现水花效果，人物短暂悬浮在水面之上。

另外，更值得注意的是世界风格的稳定性。在人物进行了大幅度、连续的空间移动之后，整个世界并没有随之“变形”或风格漂移。金色树叶的色调、末日感的整体氛围、悬崖与断壁的结构关系，都被完整地保留下来，没有因为视角和位置变化而崩坏。

这一次纵向移动的测试，比单纯的平面行走更能体现，Project Genie 不只是“看起来像一个世界”，而是在尝试维持一个在运动中依然自洽的3D空间结构。

我们再来尝试一个第一视角，并且尝试给生成的世界换一个截然相反画风，观察 Project Genie 对整体风格切换的处理能力。

在初始状态下，世界细节依然保持在一个不错的水准。但真正的测试从这里开始，我们在已有世界的基础上，额外输入了一段整体改变世界风格的 prompt，试图将原本偏写实的环境，整体转化为像素画风。

结果并没有延续前几个案例中的惊艳表现。风格变化更多集中在角色层面，人物被明显像素化，队友也趋向于贴图式呈现，但作为主体的环境几乎没有发生根本变化，地形、光影和空间结构依然保持着偏写实的渲染方式。换句话说，风格切换并未真正作用于“世界”，而更像是叠加在角色之上的一层外观修改。

与此同时，风格修改还带来了一定的细节损失，比如信号烟雾弹消失，变成了灭火器，场景语义出现了明显的偏移。

Project Genie 可以在同一世界内维持结构稳定，但对已生成世界进行整体风格重写，仍然明显弱于从零生成时的表现。当然，用AI生成内容是一个反复抽卡的过程，也许多尝试几次，Project Genie 就可以给一个更加合理的世界。

02 Project Genie最大的意义是证明其可行性

如果把 Project Genie 放进更大的生成模型谱系中来看，它现在所处的位置其实非常清晰：世界模型，正在经历自己的「视频生成 1.0 时期」。

今天的视频生成模型，已经卷到了分辨率、运镜语言和叙事连贯性，很多作品看起来已经接近“可以直接作为内容使用”。但回到最早阶段，视频生成真正令人震撼的，并不是画面质量，而是那一刻人们意识到，画面，真的能连续地动起来。

Project Genie 所代表的世界模型阶段，与之高度相似。它并不是在和游戏或影视内容比“画得多好”，而是在回答一个更基础的问题：一个由模型生成的世界，能不能在被持续操作时不迅速崩溃。

因此，Project Genie 在设计上做出了非常明确的取舍。它主动牺牲了分辨率、画面精度和生成时长，把算力优先用在维持一个可被反复进入、持续探索的环境。你能不能站在悬崖边缘停下，能不能跳下去，会不会撞上岩壁，移动之后世界风格是否还能保持一致，这些问题，远比“画面像不像某款游戏”更重要。

从技术层面看，Project Genie 能成立，并不是因为某一个单点突破，而是因为它同时满足了三件此前并不容易同时做到的事情：状态可持续、空间一致、行为可约束。

Project Genie（Genie3）的技术难点在于维护一个隐式的世界状态。用户的输入不再只是触发一次新的画面补全，而是被当作对世界状态的真实干预。角色是否能前进，取决于地形是否允许，是否会坠落，取决于重力和边界，世界风格是否延续，取决于状态是否被连续继承。

这意味着模型做的已经不只是“预测下一帧”，而是在给定历史、规则和动作条件的前提下，推演世界接下来应该如何演化。

也正因为如此，Project Genie 看起来既不像一个完整的游戏，也不像一个视频工具。它更像一个尚不成熟、但已经能够自洽运转的系统原型。

所以，Project Genie 现在最重要的意义，它第一次让普通用户直观地意识到：世界模型不只是论文里的概念，它真的可以被构建、被进入、被操作，并且在一定范围内持续成立。

作者：董道力

来源：硅星人Pro