水是神奇的![]() 使用的提示: |
在海滩上乘凉![]() 使用的提示: |
太空行走上的烟花![]() 使用的提示: 上遛狗 宇航员和他的狗看烟花 |
交互式示例
选择一种上下文词组合来创建有关宇航员的视频。
下面的所有示例都使用仅在视频上训练的模型。

从静止图像生成视频 + 提示
输入是第一帧加上提示。
猫的眼睛 |
相机 |
|
![]() |
![]() |
![]() |
2分钟视频
这个 2 分钟的故事是在旧版本的模型上使用一长串提示生成的
![]() |
未来派城市的大量交通。一艘外星飞船抵达未来派城市。相机进入外星飞船。相机向前移动,直到显示蓝色房间中的宇航员。宇航员正在键盘上打字。相机远离宇航员。宇航员离开键盘,向左走。宇航员离开键盘,走开。相机移出宇航员,看着屏幕。宇航员身后的屏幕显示鱼在海中游泳。撞到蓝色的鱼。我们跟随蓝鱼在黑暗的海洋中游泳。镜头透过水面指向天空。海洋和未来城市的海岸线。崩溃缩放到未来派摩天大楼。摄像机将放大到多个窗口之一。我们在一个办公桌空荡荡的办公室里。一只狮子在办公桌上奔跑。镜头放大到办公室内的狮子脸。缩小到办公室里穿着深色西装的狮子。戴着狮子看着镜头,微笑着。镜头慢慢缩小到摩天大楼的外观。现代城市的 日落延时摄影 |
抽象
我们介绍了Phenaki,一个能够在给定一系列文本提示的情况下进行逼真的视频合成的模型。由于计算成本、高质量文本-视频数据的数量有限以及视频长度可变,从文本生成视频尤其具有挑战性。为了解决这些问题,我们引入了一种新的因果模型来学习视频表示,该模型将视频压缩为离散令牌的小型表示。这个分词器使用时间上的因果注意力,这允许它处理可变长度的视频。为了从文本生成视频令牌,我们使用双向屏蔽转换器,条件是预先计算的文本令牌。生成的视频令牌随后被取消标记化以创建实际视频。为了解决数据问题,我们演示了对大量图像文本对语料库以及少量视频文本示例的联合训练如何导致超出视频数据集中可用范围的泛化。与以前的视频生成方法相比,Phenaki可以在开放域中生成任意的长视频,条件是一系列提示(即时间变量文本或故事)。据我们所知,这是论文第一次研究从时间变量提示生成视频。此外,所提出的视频编码器-解码器在时空质量和每个视频的标记数量方面优于文献中目前使用的所有每帧基线。
数据统计
相关导航
暂无评论...