AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了
创始人
2025-05-13 12:00:14
0

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

AI无限扩展《我的世界》,动动鼠标、键盘即可搞定!

一直前进、砍掉树木,后面别有洞天的世界,都是由用户与环境交互、AI实时生成的。

也就是说,在砍掉树木之前,树后面的内容还是不存在的。

用鼠标切换视角、环顾环境,丝滑生成连贯画面内容。

哪怕是跳跃,画面也非常稳定,且符合自然世界物理规律。

Minecraft中森林、沙滩、沙漠、冰川、河流、平原等场景都可搞定。

支持基础运动(前后左右)、复合运动、视角移动、跳跃、攻击等细节操作。

而且不局限于《我的世界》,类Unreal Engine场景泛化也不在话下。

生成的雨天后的街道,已经非常逼真。

无限逼近画面细节也不崩:

以上,就是交互式世界模型最新的重大更新!

Matrix-Game,面向游戏世界建模,专为开放世界生成高质量内容而来。

昆仑万维带来,可以让用户通过简单的键鼠指令,自由探索、创作细节丰富且符合现实世界物理规律的虚拟内容;操作门槛,释放物理真实创作自由双重潜力。

要知道,传统方法构建类似效果,往往需要手写代码、渲染视觉效果,耗时又耗力。

此前,谷歌推出了完全由AI驱动的实时游戏引擎GameNGEN一夜爆火,它能以每秒20帧模拟经典射击游戏DOOM,被网友直呼“比Sora还震撼”。

Matrix-Game与之类似,是交互式世界模型的更进一步探索。

具体如何实现?一起来看。

自由探索创作虚拟世界

Matrix-Game主要发布了三方面内容:

  • Matrix-Game-MC数据集

  • Matrix-Game主模型

  • GameWorld Score评测体系

Matrix-Game-MC数据集

Matrix-Game-MC数据集是一个自主构建的大规模交互世界数据集。主要包含两类数据:大规模无标签的Minecraft游戏视频和带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据,具备精细动作标注。

这能让模型同时学习复杂环境动态和交互模式,完成建模。

其中,无标签预训练数据采用三阶段过滤机制:画质与美学过滤→非游戏内容剔除→动态与视角稳定性过滤

从6000小时的MineDojo数据中过滤出近千小时高质量数据。

有标签数据采用2种混合策略,生成数千小时可控监督数据。

一方面基于探索代理(Exploration Agent),借助VPT agent在MineRL环境中自动探索,生成大规模、高质量的Minecraft视频数据,数据中包含精确的键盘与鼠标控制信号,支持可控性学习。

另一方面进行程序化模拟(Unreal Procedural Simulation),基于Unreal Engine手动构建结构清晰、标签精确的模拟交互场景,提供位置信息、动作标签(离散与连续)、以及环境反馈信号(如方块是否成功破坏),生成高精度、无噪声的可控标注数据,以此完成高保真动作-响应建模。

Matrix-Game主模型

主模型核心框架基于扩散模型。包含图像到世界建模、自回归式视频生成、可控交互设计几个部分。

首先,图像到世界建模(Image-to-World Modeling)以单张图像作为生成交互式视频起点,融入用户动作输入(如键盘、鼠标),通过类似Flux与HunyuanVideo的多模态扩散模型直接生成虚拟游戏世界的视频内容。

过程中不依赖语言提示,仅基于视觉信号建模空间几何、物体运动及其物理交互。

然后通过自回归式视频生成(Autoregressive Diffusion Generation),持续生成高一致性长视频内容。

每次生成以前一视频片段的最后k=5帧作为运动上下文,逐段递进生成,确保时间上的连贯性。

为缓解时序漂移和误差累积,训练中以一定概率针对参考图像与运动上下文引入随机扰动、随机删除以及分类引导(CFG)策略。

训练中采用可控交互设计(Injecting Actions for Controllability),键盘动作以离散token表达,视角移动动作则以连续token表达。

采用GameFactory的控制模块,并融入多模态Diffusion Transformer架构,同时使用CFG技术提升对控制信号的鲁棒响应能力。

GameWorld Score测评体系

为了系统性评估和比较交互式世界生成模型的性能,Matrix-Game提出了一套统一评测框架。

该评测体系首次实现了感知质量+控制能力+物理合理性的全方位衡量。

核心评估维度有四方面:

  • 视觉质量

    (Visual Quality):评估每一帧图像的清晰度、结构一致性与真实感。依据人类视觉系统(HVS)标准衡量每一帧图像生成效果。

  • 时间一致性

    (Temporal Quality):衡量模型生成视频的动态连贯性,包括运动连续性、节奏平滑性与时间稳定性。

  • 交互可控性

    (Action Controllability):评估生成结果是否准确响应用户输入的控制信号,涵盖离散控制(如前进、跳跃)和连续控制(如视角转换)。

  • 物理规则理解

    (Physical Rule Understanding):测试生成视频是否遵循物理常识与空间一致性。

8大Minecraft场景中全面领先

结果显示,在GameWorld Score评测系统中,Matrix-Game全面超越现有开源基线模型Decart的Oasis与微软的MineWorld,在视觉质量、时间一致性、动作可控性与物理规则理解四大维度上均取得领先成绩。

在双盲实验中,用户也更倾向于选择Matrix-Game生成的视频,总体偏好率达到96.3%,细分维度上的偏好也都超过89%,尤其是视觉质量上,偏好率达到了98.23%。

在“运动”、“攻击”等动作上,Matrix-Game可实现90%+准确率,而且在细粒度视角控制下依然保持高精度响应。

在8大典型Minecraft场景中全面领先。

在实际应用方面,Matrix-Game可以在虚拟游戏世界快速搭建、影视与元宇宙内容生产、具身智能体训练和数据生成上发挥作用。

能够更低成本、更高效率生成高保真、物理一致且可交互的虚拟视频内容或虚拟环境。

空间智能正在重塑虚拟世界

随着大模型应用落地趋势开启,在前沿领域,AI正在从2D世界向3D世界渗透。

李飞飞官宣创业World Labs,更是让空间智能成为当下热议方向。

如今,只凭一张图生成以假乱真的3D世界,已经成为现实。

今年2月,昆仑万维推出了Matrix-Zero世界模型,成为中国第一家同时推出3D场景生成、可交互视频生成模型的企业。由此也开启了昆仑万维在世界模型Matrix系列上的探索以及在空间智能领域的深度布局。

国内外,大厂巨头们也纷纷押注3D AIGC,如谷歌DeepMind、腾讯等也一直在该领域进行前沿布局。

为啥都看好空间智能?

一方面是技术演进逻辑使然:从单模态到多模态、从2D到3D,技术总是朝着“更能传递丰富信息”的方向演进。

另一方面在于,现阶段技术也为向3D领域探索做好了一定基础准备,从算法、数据到算力,都展现出了处理3D内容生成的潜力。比如世界模型、3D数字资产生成等……现在可以进行前沿探索了。

再从行业需求来看,影视制作、游戏场景开发、具身智能等领域,都已经浮现出对3D AIGC的需求。近期大火的智能体,也能在虚拟3D世界中进行训练和迭代。

一定程度上,3D AIGC、世界模型可以为人类提供了一种全新的交互体验。

所以也就不难理解李飞飞为何在这一领域创业,硅谷巨头也积极入局,这是对下一代AI、下一个“大模型”的押注。

如此趋势,在国内亦是如此。

更懂AI的人,已经火速奔赴下一个战场抢占先机了。

而这一次,站在最前面的是Matrix-Game及其背后的昆仑万维,它们让世界不再只是被观看,而是被探索、被创造。

Github:https://github.com/SkyworkAI/Matrix-Game

Huggingface model:https://huggingface.co/Skywork/Matrix-Game

Homepage:https://matrix-game-homepage.github.io

技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf

相关内容

热门资讯

《毁灭战士:黑暗时代》PS5奖... 统计网站truetrophies汇总了新作《毁灭战士:黑暗时代》PS5奖杯信息。据介绍,总奖杯数为2...
原创 高... 英雄联盟LPL赛区,在第一阶段铩羽而归,TES成为了众矢之的。现在4月5日,第二阶段正式开始,这个阶...
产品 | 想畅玩《暗区突围:无... 射击新作《暗区突围:无限》定档了 极致画面+沉浸式枪战,带你体验真实战场! 想要畅玩FPS类游戏?...
米哈游好像又行了 文 | 价值星球Planet,作者 | 毓杭,编辑 | 计然 无论深度用户承认与否,米哈游不及当年...
政府扶植为何难以给中小游戏团队... 独立游戏制作人三千创立的工作室是一个典型的小微团队,初创时团队只有3个人,启动资金20万元。他们做了...
虎牙发布2025年Q1财报:N... 虎牙公司(NYSE:HUYA)于北京时间2025年5月13日晚间(美国东部时间2025年5月13日早...
报点疑云烟消云散:iG语音曝光... iG对阵TT的比赛引发的报点风波终于随着官方语音公布而平息,此前因TheShy首个职业生涯五杀和终结...
《太空杀》接入豆包大模型!巨人... 新浪科技讯 5月13日下午消息,今日在 FORCE LINK AI 创新巡展·上海站,巨人网络展示了...
“泊里手造非遗”线上销售小程序... 半岛网5月13日讯日前,泊里镇研发打造的“泊里手造非遗”线上销售小程序正式启用,这是泊里镇推动非遗创...
《燕云十六声》新版“悠悠凉州彻... 今日(5月13日)《燕云十六声》新宣传片发布,官方宣布新版本“悠悠凉州彻”将于5月16日上线。一起来...
《推币勇者》定价公布 首发35... 各位币佬们大家好!距离5.23日正式上线还有约10天时间,我们也在加班加点做最后的冲刺,在测试期间大...
硬核性能!技嘉AORUS为PC... 近日,全球知名硬件品牌技嘉AORUS为《绝地求生》(PUBG)冠军联赛(PCL)官方解说及头部主播“...
等你来赛!一图解读2025年“... *版权归原作者所有,如有侵权请联系,我们将及时处理。 合作联系请私信留言
一、这些野路子真能日结400+ 不吹牛!实测手机搞钱野路子 小白也能日入400+ 最近总有人问我:现在用手机真能日赚400?这事儿...
原创 寻... 寻梦丝路的奇幻世界里,玩家既是穿越千年的商旅,也是执剑天涯的侠客。面对黄沙漫天的丝路商道,如何从萌新...
ST中青宝跌2.30%,成交额... 5月13日,ST中青宝跌2.30%,成交额1.72亿元,换手率6.84%,总市值24.46亿元。 异...
我奶拿了MVP!腾讯、网易为何... 大家好,我是X博士。 在四年前,有一则叫“我奶常山赵子龙”的奇葩新闻,在网络上火得一塌糊涂,连续上了...
一、手机就是提款机 16岁干啥活来钱快?这7个路子能让你月入过万 最近老收到私信问:"哥,我今年16不上学了,干啥活工...
小岛秀夫精研书籍公布 探索小岛... 著名游戏设计师小岛秀夫精研书籍《游戏设计师 小岛秀夫论》公布,预定5月23日发售,感兴趣粉丝可以关注...
Switch 2新功能:充电至... 任天堂最新推出的Switch 2游戏主机,在画质上的显著提升给玩家带来了更为震撼的游戏体验,但同时也...