浙江在线 > 浙江记协网 > 媒体前沿

又一视频生成模型刷屏！名副其实？

Sora爆火后，谷歌重磅官宣Genie。

据谷歌官网，Genie拥有110亿参数，能够用一张图片、草图合成可操控的虚拟世界。

Genie到底是什么？与Sora相比，两者有何异同？世界模拟器又是什么？据此，第一财经、蓝鲸财经进行了相关报道。

以下是报道全文。（请点击查看原文）

“Sora热”未退，新一款视频生成模型——Genie强势来袭。

2月26日，谷歌Deep Mind团队发布基础世界模型Genie，一个虚拟生成的可交互环境，110 亿参数，通过给模型投喂视频数据进行训练，生成照片、草图甚至可以操控的虚拟世界。

这意味着，仅靠一张图片，Genie便能开启无限世界的大门。

很多人表示：谷歌又来领导 AI 技术了。

但，这只是 AI 技术的新突破吗？事情真的这么简单吗？

1 Genie是什么？

图片来源：视觉中国

据谷歌介绍，Genie是一个110亿参数的基础世界模型，能从互联网视频中学习颗粒度的控制，不仅能了解哪些部分是可控的，还能推断出生成的环境中的潜在动作。

它由三部分组成：一个简单且可扩展的潜在动作模型推断每对帧之间的潜在动作、一个视频分词器将原始视频帧转换为离散标志（token），以及一个动态模型，在给定潜在动作和过去帧token的情况下预测下一帧。

根据蓝鲸财经记者观察，这是指当给Genie提供不同的图像（类似不同版本的马里奥通关环境）时，图像中的小人能在遇到障碍时表现出同样的弹跳、躲避障碍的动作，且符合物理规律，但这些视频非常卡通化。

官网也表示：“我们专注于 2D 平台游戏和机器人技术的视频，但我们的方法是通用的，应该适用于任何类型的领域，并且可以扩展到更大的互联网数据集。”

Genie生成的视频截图。图片来源：Google Genie官网

在官网上，Genie也生成了模拟机器人动作的视频。Genie团队训练了一个较小的 2.5B 模型，与游戏平台的情况一样，具有相同潜在动作序列的轨迹通常会表现出相似的行为。这表明 Genie 能够学习符合一贯规律的动作空间，可能适合训练多面手智能体（机械臂）。Genie 还可以模拟可以变形的物体。

Genie生成的机械臂视频截图。图片来源：Google Genie官网

2 Sora、Genie谁更牛？

与竞争对手OpenAI两周前火遍全球的文生视频模型Sora相同，Genie同样是一个“物理世界模拟器”，能够在虚拟世界中做物理世界的实验。不同的是，Sora是直接从文字生成视频，这更加“大力出奇迹”，且生成视频长度可达一分钟；而Genie从目前官网披露的情况看，大部分情况下需要先用文生图模型来生成起始帧图片，再用Genie 生成视频，且视频在一两秒左右，更像是动图。

且与Sora呈现出来的高清晰度、高真实度相比，Genie似乎不那么强调画面真实性，而是将重点放在潜在动作预测上。生成高真实度的视频并非目前Genie的着力点。

“Genie的独特之处在于它能够专门从互联网视频中学习细颗粒度的控制。这是一个挑战，因为互联网视频通常不会标注其正在执行哪个动作、应该控制图像中的哪一部分。Genie不仅了解观察的哪些部分是可控制的，而且能根据生成的环境来推测出多种潜在的动作。请注意相同的潜在操作如何在不同的提示图像下产生相似的行为。”

据了解，动作可控是目前AI视频的一个难点，有创作者告诉第一财经记者，PIKA等视频生成工具多是做视差动画，看上去动了，但运动合理性还有很大改进空间，大幅度运动、人物对话较难实现。一段长视频要具备剧情，还保持在同一个风格里，AI很难做到，Sora通过多镜头巧妙地规避了这个问题，但还不能确认解决了问题。从这个角度看，AI理解物理世界并控制物体动作是一个重要方向。

3 Sora、Genie的本质是什么？

如果只把Sora、Genie当做生成视频的影视工具，就大材小用了。

Sora生成的一个视频中，跑步机倒着跑。图片来源：OpenAI Sora官网

Sora、Genie的本质是“世界模拟器”，让虚拟世界模仿现实物理世界的各种属性（重力、摩擦力、动能、光、声、电、材料、生物等等），在虚拟世界中操控物体动作，在仿真的物理条件下来做实验。

Sora此前发布视频中的金毛犬、吹蜡烛的老太太、冰川上的猛犸象等，都是Sora通过视频数据集来“理解”现实世界是如何构成的、有什么物理规律、人类有怎样的行为，来模拟生成的。所以，Sora自行理解提炼的模拟世界中的规律也可能不符合现实物理世界，比如老太太吹不灭蜡烛、人在跑步机上倒着走、篮球直接穿篮而过等等。

世界存在庞大的信息量，我们需要开发出能够分析并理解这些海量数据的模型和算法，生成模型是朝向这个目标迈进的最有希望的方法之一。世界模型的一个好处或许在于，人类可以把需要试错的部分放在虚拟世界中进行。

在谷歌发布的Genie之前，有不少视频生成模型在全球火爆。2023年12月底，Pika Labs推出Pika 1.0，生成视频长度在3秒左右，以单镜头为主。Runway视频模型于2023年2月发布，支持最多18s视频生成，镜头相对固定。2024年2月16日，全球明星AI创业公司OpenAI发布文生视频模型Sora，有精细的画质、多镜头拍摄、多角度运镜，对于真实人类世界的模拟度极高。

时间:2024-02-29　来源:中国记协网-“中国记协”微信公众号
作者:中国记协　编辑:刘卓文

浙江新闻奖　　浙江飘萍奖