VideoTetris

11个月前发布 21 00

VideoTetris是一个新颖的框架,它实现了文本到视频的生成,特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术,精确地遵循复杂的文本语义,并通过操作和组合去噪网络的空间和时间注意力图来实现。此外,它还引入了一种新的参考帧注意力机制,以提高自回归视频生成的一致性。VideoTetris在组合...

收录时间:
2025-05-30
VideoTetrisVideoTetris

VideoTetris是一个新颖的框架,它实现了文本到视频的生成,特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术,精确地遵循复杂的文本语义,并通过操作和组合去噪网络的空间和时间注意力图来实现。此外,它还引入了一种新的参考帧注意力机制,以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

数据统计

相关导航

造点AI

造点AI

造点AI是夸克(Quark)推出的AI图像创作生成平台,集成AI生图与AI生视频两大核心能力,于2025年9月24日正式发布。造点AI依托通义万相Wan2.5模型,是首个支持音画同步视频生成的平台,可以生成和画面匹配的人声、音效和背景音乐。造点AI视频支持10S时长的视频生成,单次生成即可实现完整的剧情故事,画质能够满足电影级场景的需求。造点AI生图全面支持 Midjourney V7的多项核心能力,包括多图参考、风格代码、精细化参数控制等,可以满足专业创作者在构图、风格与细节上的高阶需求。
Open-Sora-Plan-v1.1.0

Open-Sora-Plan-v1.1.0

Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本,以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进,包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVideoVAE架构,具有更强的性能和更高的推理效率。此外,它还保持了v1.0.0版本的极简设计和数据效率,并且与Sora基础模型的性能相似,表明其版本演进与Sora展示的扩展法则一致。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...