谷歌世界模型 – 青瓜传媒 //www.f-o-p.com 全球数字营销运营推广学习平台! Wed, 04 Feb 2026 01:58:06 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico 谷歌世界模型 – 青瓜传媒 //www.f-o-p.com 32 32 实测 Genie 3:20+个例子看懂谷歌世界模型 //www.f-o-p.com/379174.html Wed, 04 Feb 2026 01:58:06 +0000 //www.f-o-p.com/?p=379174

 

上个月底,Google DeepMind 刚刚放出了 Genie 3:世界模型!

输入一句话,便给你生成一个 3D 世界,然后你可以在里面自由走动雪地里走两步,脚印都给你渲染出来了

这个视频里的雪山场景,提示词:

高海拔开放世界,可变形的雪地地形角色设定是:一个敏捷的登山者,可以全方向移动和跳跃

生成之后,你用键盘控制登山者在雪地里走,雪会被踩出痕迹,视角跟着你的操作实时变化用一句话生成的海洋,可以冲浪

这个冲浪的提示词更长:

无尽的海洋,巨大的雷鸣般的海浪,巨大的蓝绿色浪管在阳光下翻滚,成百上千的海鸥飞得很近,偶尔会挡住视线

角色设定:一块白色冲浪板的板头,直指海浪的浪管

海浪、海鸥、阳光…等等都进行了实时渲染,而你可以控制冲浪板在浪里穿行

要知道,Sora 生成的是一段固定的视频,你只能看Genie 3 生成的是一个世界,你可以操控,这便是「世界模型」

怎么玩到

现在只对美国用户开放,需要订阅 Google AI Ultra,$250/月

入口在 Google Labs 里,产品叫 Project Genie

https://labs.google/fx/projectgenie

在这里,访问别人创建的世界,比如旁边这个飞机

一花一世界,一叶一菩提

当然,也可以自己创建一个世界,点这个 Create your own 进去就行了短暂载入后,创建界面长这样

左边写环境提示词,右边写角色提示词

左边写环境提示词,右边写角色提示词:

环境提示词:可以描述你想要的世界,比如「木叶村的街道,有拉面店和火影岩」
环境提示词:可以描述你要扮演的角色或者控制的物体,比如「童年的漩涡鸣人」

填完点生成,等几秒钟,世界就出来了,这是一个可以游玩的世界

操作方法,就类似常规的 3D 游戏:

  • W、S、A、D 控制前后左右移动
  • 上下左右箭头控制视角转动
  • 空格键跳跃
  • 但鼠标没啥用

WSAD 操作

每次能玩 60 秒,时间到了可以重新生成,这里我放一个我的录屏,可以看看

它能生成什么样的世界

讲真的,这些东西真的太牛逼了,我这里我用一些来自官方的例子,和大家一起看看

物理世界

从沙漠到海洋到极端天气。水有动态物理效果,雪地可以踩出痕迹,纸飞机掠过水面会有波纹

生态系统

动物有自己的行为模式。狐狸在草地上跑,鹰在山谷里滑翔,植物细节也能渲染

动画和奇幻风格

不只是写实。黏土定格动画、水彩画、针织毛毡,各种风格都能生成。有个演示是一只黏土小猫在图书馆里走,另一个是毛毡蜗牛在花园里爬

不同地点

雪山、外星地表、维多利亚街道、古雅典。有个演示里还有传送门,从维多利亚街道走进去,出来就是沙漠

环境一致性

你在世界里走了一圈回来,之前看到的东西还在原位

这其实比生成一整段视频更难。Genie 3 是自回归生成,一帧一帧往后推,误差会随时间累积。现在能保持数分钟的一致性,离开视野的物体大约一分钟内回去还能看到

可提示的世界事件你在探索过程中可以用文字改变世界。天气变化、添加新物体、引入新角色,都可以。有个演示是第一人称给房子刷油漆,油漆痕迹会留在墙上

核心能力

Google 称 Genie 3 是「第一个实时交互的世界模型」(the first real-time, interactive world model)

  • 实时:20-24 帧每秒,720p 分辨率。你操作的时候,画面实时生成,没有明显延迟
  • 世界一致性:你在世界里走了一圈回来,之前看到的东西还在原位。官方说能保持数分钟的一致性,之前离开视野的物体,大约一分钟内回去还能看到
  • 从文字直接生成:Genie 1 需要图片输入,Genie 2 需要单张图片,Genie 3 直接用文字描述就行
  • 自己学会的物理规则:水流、重力、光影、物体碰撞,这些物理效果是模型从视频数据里自己学出来的,没有硬编码物理引擎

更牛逼的用途

在 Google 的说法中,除了给大家玩,这个模型还有一个更牛逼的用途:让真实智能体,在仿真世界里训练

比如说 SIMA 2,也是来自谷歌,一个能在 3D 游戏里执行任务的 AI,通过读取屏幕画面,用虚拟键盘鼠标,来完成游戏内的操作

SIMA 2 在 Genie 3 里执行任务

现在把 SIMA 2 放进 Genie 3 生成的世界里。给它设定目标,比如「走向亮绿色的垃圾压缩机」,它能在生成的仓库环境里完成导航

SIMA 2 自我改进循环

更有意思的是自我改进。不少第一代智能体失败的任务,经过几轮自我训练之后就能完成,不需要人类额外标注数据

SIMA 2 在 Genie 3 里自我改进

世界模型能给智能体提供无限多样的训练环境,不用在真实世界里试错

当前限制

对于当前版本,依然有许多限制,Google 特别给列了出来

交互时长有限每次只能玩几分钟,不能连续玩几个小时

动作空间有限角色能做的动作目前只有基本的移动和跳跃,复杂动作做不了

多智能体交互难多个独立智能体在同一个环境里互动,目前还是研究难题

真实地点不精确没法完美复刻真实世界的具体位置

文字渲染有问题除非在提示词里明确写了,否则生成的世界里文字通常不清晰

还有一条没在官方限制,但更实际的:$250/月

最后

以 Genie3 的梦境,作为收尾一花一世界,一夜一菩提

作者:赛博禅心

]]>
实测Genie:传说中的世界模型被Google做出来了 //www.f-o-p.com/379123.html Tue, 03 Feb 2026 01:43:35 +0000 //www.f-o-p.com/?p=379123

 

前几天,Google DeepMind 向外部开放了 Project Genie,可以算是世界模型 Genie 3 的实验性研究原型,也是这套世界模型第一次以可交互形态对公众开放。

目前,该原型率先向年满 18 岁的美国 Google AI Ultra(3个月125刀) 订阅用户开放。

01 实测 Project Genie

与视频生成模型不同,Project Genie有两个promtps填写位置,左边填写环境的 prompt,右边写主角的 prompt,还能上传参考图片。选择用第一人称还是第三人称。

在输入提示词后,短短一分钟内,Project Genie 显示世界模型视频的“第一帧”,给用户一个预览,看看是否要进行调整。

我尝试了两次同样的提示词,差别还是有的。

如果对预览结果满意,就可以直接开始创造世界。

当世界生成完成后,用户即可接管角色,在世界中进行自由探索。

目前 Project Genie 支持约 1 分钟的可交互探索时长,分辨率为 720p。虽然时间和分辨率不是很前沿,但世界模型在这个时间点,最重要的是“控制”。

Project Genie 的人物控制方式接近传统游戏逻辑,用户可以使用 WASD 控制角色前后左右移动,同时用方向键可独立控制视角进行前后左右的镜头转动,最惊喜的是人物可以跳。

相比人物位移,视角移动明显更加流畅,响应延迟很低,整体操作手感更接近实时渲染而非视频回放。同时,系统内置了基础的物理约束,例如角色行进到场地边缘时会自然停下,而不是穿模或继续滑行。

从生成质量来看,Project Genie 与传统视频生成仍存在明显差异,但在“世界还原”层面已经相当完整。prompts中提到的球场、草地、傍晚光照、电子大屏、观众挥舞旗帜都被还原。此外,人物的初始位置同样符合语境,从中圈附近出发,身着简洁的训练服,与整体世界设定保持一致。

我们再来试试用图片生成世界。

这一次我们上传的是《艾尔登法环》的游戏画面。Project Genie 基本复现了原图的环境特点,具体效果直接看生成视频即可。

Project Genie 生成的世界是可以反复进入的。在这次测试中,我们选择了与之前足球场案例不同的路径,不再是平面移动,而是尝试纵向位移。

这个世界中人物初始位置就在悬崖边缘。于是我们让人物直接跳下悬崖。

从结果来看,表现相当完美。人物起跳、下落、落点的空间关系在视觉上是合理的,而且角色顺利落到下方路径,没有出现明显的空间错位。

第二次跳崖时,角色在下落过程中甚至因为蹭到岩壁而短暂“卡”了一下,这个细节很关键,说明Project Genie是真的在计算角色与环境之间的物理碰撞,而不是简单把物体抽象成一个个立体图像,细节用视频补足。

细节层面也有加分项。起跳时,脚下会扬起灰尘,落地瞬间,人物会有轻微屈膝的缓冲动作。这些都增强了动作的可信度。当然,还是有点瑕疵,在最后一个画面中,角色实际应该落在水面上,但并没有出现水花效果,人物短暂悬浮在水面之上。

另外,更值得注意的是世界风格的稳定性。在人物进行了大幅度、连续的空间移动之后,整个世界并没有随之“变形”或风格漂移。金色树叶的色调、末日感的整体氛围、悬崖与断壁的结构关系,都被完整地保留下来,没有因为视角和位置变化而崩坏。

这一次纵向移动的测试,比单纯的平面行走更能体现,Project Genie 不只是“看起来像一个世界”,而是在尝试维持一个在运动中依然自洽的3D空间结构。

我们再来尝试一个第一视角,并且尝试给生成的世界换一个截然相反画风,观察 Project Genie 对整体风格切换的处理能力。

在初始状态下,世界细节依然保持在一个不错的水准。但真正的测试从这里开始,我们在已有世界的基础上,额外输入了一段整体改变世界风格的 prompt,试图将原本偏写实的环境,整体转化为像素画风。

结果并没有延续前几个案例中的惊艳表现。风格变化更多集中在角色层面,人物被明显像素化,队友也趋向于贴图式呈现,但作为主体的环境几乎没有发生根本变化,地形、光影和空间结构依然保持着偏写实的渲染方式。换句话说,风格切换并未真正作用于“世界”,而更像是叠加在角色之上的一层外观修改。

与此同时,风格修改还带来了一定的细节损失,比如信号烟雾弹消失,变成了灭火器,场景语义出现了明显的偏移。

Project Genie 可以在同一世界内维持结构稳定,但对已生成世界进行整体风格重写,仍然明显弱于从零生成时的表现。当然,用AI生成内容是一个反复抽卡的过程,也许多尝试几次,Project Genie 就可以给一个更加合理的世界。

02 Project Genie最大的意义是证明其可行性

如果把 Project Genie 放进更大的生成模型谱系中来看,它现在所处的位置其实非常清晰:世界模型,正在经历自己的「视频生成 1.0 时期」。

今天的视频生成模型,已经卷到了分辨率、运镜语言和叙事连贯性,很多作品看起来已经接近“可以直接作为内容使用”。但回到最早阶段,视频生成真正令人震撼的,并不是画面质量,而是那一刻人们意识到,画面,真的能连续地动起来。

Project Genie 所代表的世界模型阶段,与之高度相似。它并不是在和游戏或影视内容比“画得多好”,而是在回答一个更基础的问题:一个由模型生成的世界,能不能在被持续操作时不迅速崩溃。

因此,Project Genie 在设计上做出了非常明确的取舍。它主动牺牲了分辨率、画面精度和生成时长,把算力优先用在维持一个可被反复进入、持续探索的环境。你能不能站在悬崖边缘停下,能不能跳下去,会不会撞上岩壁,移动之后世界风格是否还能保持一致,这些问题,远比“画面像不像某款游戏”更重要。

从技术层面看,Project Genie 能成立,并不是因为某一个单点突破,而是因为它同时满足了三件此前并不容易同时做到的事情:状态可持续、空间一致、行为可约束。

Project Genie(Genie3)的技术难点在于维护一个隐式的世界状态。用户的输入不再只是触发一次新的画面补全,而是被当作对世界状态的真实干预。角色是否能前进,取决于地形是否允许,是否会坠落,取决于重力和边界,世界风格是否延续,取决于状态是否被连续继承。

这意味着模型做的已经不只是“预测下一帧”,而是在给定历史、规则和动作条件的前提下,推演世界接下来应该如何演化。

也正因为如此,Project Genie 看起来既不像一个完整的游戏,也不像一个视频工具。它更像一个尚不成熟、但已经能够自洽运转的系统原型。

所以,Project Genie 现在最重要的意义,它第一次让普通用户直观地意识到:世界模型不只是论文里的概念,它真的可以被构建、被进入、被操作,并且在一定范围内持续成立。

作者:董道力

来源:硅星人Pro

]]>