Open-Sora-Plan-v1.1.0

11个月前发布 14 00

Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本,以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进,包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVi...

收录时间:
2025-05-30
Open-Sora-Plan-v1.1.0Open-Sora-Plan-v1.1.0

Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本,以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进,包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVideoVAE架构,具有更强的性能和更高的推理效率。此外,它还保持了v1.0.0版本的极简设计和数据效率,并且与Sora基础模型的性能相似,表明其版本演进与Sora展示的扩展法则一致。

数据统计

相关导航

VideoTetris

VideoTetris

VideoTetris是一个新颖的框架,它实现了文本到视频的生成,特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术,精确地遵循复杂的文本语义,并通过操作和组合去噪网络的空间和时间注意力图来实现。此外,它还引入了一种新的参考帧注意力机制,以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。
雾象

雾象

雾象(Fogsight)是由WaytoAGI团队推出的一款AI动画生成引擎,能够根据用户输入的抽象概念或词语,自动生成生动的叙事动画。雾象通过自然语言处理技术,可以将抽象概念拆解为镜头脚本和旁白,并映射成视觉元素、转场和音效,从而实现动画的自动生成。雾象的核心优势在于其全流程的自动化能力,从剧本创作、分镜设计到最终的动画渲染,均可一键完成。雾象也支持多种多媒体形式的内容生成,不仅限于二维动画,还包括可能的三维效果,可以适用于多种场景和领域。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...