在Pytorch中实现制作视频,来自元AI的新SOTA文本到视频生成器。它们结合了伪3D卷积(轴向卷积)和时间注意,并显示出更好的时间融合。
伪3d卷积并不是一个新概念。它之前已经在其他上下文中进行过探索,例如将蛋白质接触预测为“维度混合残留网络”。
本文的要点归结为,采用SOTA文本到图像模型(这里他们使用DALL-E2,但相同的学习点很容易适用于Imagen),进行一些小的修改以引起人们的注意,以及其他方法来吝啬计算成本,正确进行帧插值,获得一个很棒的视频模型。
@misc{Singer2022,
author = {Uriel Singer},
url = {https://makeavideo.studio/Make-A-Video.pdf}
}