StreamingT2V突破AI视频生成极限：2分钟免费长视频开源问世

艾斯 • 2024年 4月 16日 pm12:25 • AI • 阅读 298

近日，由Picsart AI Research等多个团队联合开发的AI视频模型StreamingT2V惊艳亮相，以其强大的长视频生成能力刷新了行业记录。这款模型能够生成长达1200帧、时长达2分钟的视频，不仅在技术上超越了此前备受瞩目的Sora模型，更以其免费开源的特性，为开源生态注入了新的活力。

StreamingT2V的发布标志着视频生成领域取得了重要突破。此前，市场上的视频生成模型大多只能生成几秒到十几秒的视频，而Sora模型的60秒生成能力已经算是业内佼佼者。然而，StreamingT2V不仅将视频生成时长提升至2分钟，理论上还可以做到无限长，为视频生成领域带来了前所未有的可能性。

StreamingT2V的成功得益于其先进的自回归技术架构。该模型能够创建具有丰富运动动态的长视频，同时保持视频的时间一致性和高帧级图像质量。通过引入条件注意力模块（CAM）和外观保留模块（APM），以及一种随机混合方法，StreamingT2V有效解决了现有文本到视频扩散模型在扩展到长视频时出现的质量下降、表现生硬或停滞等问题。

CAM作为短期记忆块，通过注意机制调节当前一代的视频，确保视频块之间的过渡自然流畅；而APM作为长期记忆块，则从第一个视频块中提取高级场景和对象特征，防止模型在生成过程中忘记初始场景。此外，StreamingT2V还利用高分辨率文本到视频模型对生成的视频进行自动回归增强，进一步提高了视频的质量和分辨率。

目前，StreamingT2V已经在GitHub上开源，并在huggingface上提供了免费试玩。尽管由于服务器负载可能较高，用户可能需要耐心等待，但尝试输入文字和图片提示来生成视频的体验依然让人兴奋。huggingface上也展示了一些成功的案例，这些案例充分证明了StreamingT2V在视频生成方面的强大实力。

StreamingT2V的发布不仅为视频生成领域带来了新的技术突破，也为开源社区提供了一个强大的工具。它的出现将有助于推动相关技术的发展和应用，为电影制作、游戏开发、虚拟世界构建等领域带来更多创新和可能性。

未来，随着StreamingT2V等先进技术的不断完善和普及，我们或许可以期待看到更多高质量、长时长的AI生成视频在各个领域得到广泛应用。同时，开源社区也将继续发挥重要作用，推动相关技术的不断创新和发展。

文章来源于互联网:科技云-StreamingT2V突破AI视频生成极限：2分钟免费长视频开源问世