谷歌发布110亿参数Genie模型:从图片到可玩虚拟世界
谷歌DeepMind团队近日发布了一款名为Genie的基础世界模型,其拥有110亿参数,能够从一张图片创造出可玩的虚拟世界。这一突破性的技术引起了网友的广泛关注,标志着AI已经正式涉足视频游戏领域。
不同于之前的模型,Google Genie通过学习20万小时的未标注互联网视频,无需监督训练即可生成丰富多样的场景。更令人惊叹的是,它无需任何动作标注,就能确定场景中的主角,并允许用户与之互动。这一特性使得Genie在创造虚拟世界方面具有巨大的潜力。
Google Genie通过三大核心组件实现其功能:潜动作模型、视频分词器以及自回归动态模型。这些组件共同工作,生成一个学习潜动作空间,不仅为用户提供了交互式的体验,还有助于训练智能体模仿看不见的视频中的行为。
此外,Genie的创新之处还在于它能够应用于人类设计的草图或现实世界的图像上。通过最先进的文本到图像生成模型制作起始帧,Genie可以将其转化为可交互的虚拟世界。这一功能为创建虚拟世界提供了新的途径,极大地拓宽了Genie的应用范围。
Genie团队的负责人Tim Rocktäschel表示,Genie作为世界模型,是人类迈向通用人工智能(AGI)的重要一步。它的出现将重塑交互式生成环境的格局,为未来的通才智能体的发展奠定基础。
总之,谷歌DeepMind发布的Genie模型为视频游戏领域带来了革命性的变化。其从一张图片创造出可玩虚拟世界的能力令人瞩目,预示着AI在游戏领域的广泛应用即将到来。
文章来源于互联网:科技讯-谷歌发布110亿参数Genie模型:从图片到可玩虚拟世界