微软团队在《Nature》发表研究,推出世界与人类行为模型(WHAM),通过捕捉玩家行为数据,解决生成式AI在游戏开发中的三大挑战——生成内容的一致性、多样性和持久性。该模型不仅支持开发者高效迭代创意,更开创了人机协作的创意生产新范式,为音乐、影视等领域的AI应用提供技术启示。
生成式AI的下一站:从“替代创意”到“增强创意”
在游戏开发中,一个角色跳跃的弧度、一场战斗关卡的节奏,往往需要开发者反复调试数百次。这种“微调”过程,正是创意落地的核心挑战——既需要天马行空的想象力,又受限于游戏世界的物理规则与叙事逻辑。2025年2月,微软团队在《Nature》发表的突破性研究,通过世界与人类行为模型(World and Human Action Models, WHAM),为生成式AI融入创意工作流提供了全新解决方案。
通过对27位游戏开发者的深度访谈,研究团队发现两个关键需求:
传统生成式AI的三大缺陷阻碍了其实用化:生成内容前后矛盾、选项缺乏多样性、用户修改无法持久保留。微软团队从游戏开发这一高复杂度场景切入,构建了WHAM模型的技术框架。
WHAM的技术突破源于三个创新设计:
用Fréchet视频距离(FVD)评估,WHAM生成的10秒视频动态一致性接近人类操作水平。典型案例中,模型准确模拟了角色攀爬移动平台、受击硬直等复杂交互,甚至能处理原游戏未出现的“垂直跳板”道具,确保其物理属性与场景融合。
在相同初始画面下,WHAM生成的操作分布与人类玩家高度匹配(Wasserstein距离仅0.43)。例如面对敌人时,AI可提供“正面强攻”“侧翼包抄”“呼叫队友”等多种策略,开发者可通过调整损失权重控制创意发散程度。
当开发者插入新元素(如能量核心Powercell),WHAM在后续生成中能稳定保留这些修改。实验显示,使用5帧修改画面作为提示时,85%的新增内容可持久存在。这意味着美术师调整角色皮肤后,AI会自动将其融入所有关联场景。
研究团队发布的WHAM Demonstrator原型展示了三大应用场景:
WHAM的突破不仅在于技术层面,更揭示了生成式AI的进化方向:
微软团队已开源模型权重与评测数据集,这场“创意增强革命”才刚刚开始。当AI真正理解人类创作意图时,或许我们将迎来一个“人人都是游戏设计师”的时代。