热门

Open-Sora-Plan-v1.1.0

11个月前发布 14 00

Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本，以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进，包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVi...

收录时间：

2025-05-30

打开网站手机查看

视频生成 # AI模型 # 开源 # 文本到视频 # 视频生成

Open-Sora-Plan-v1.1.0

Open-Sora-Plan-v1.1.0

Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本，以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进，包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVideoVAE架构，具有更强的性能和更高的推理效率。此外，它还保持了v1.0.0版本的极简设计和数据效率，并且与Sora基础模型的性能相似，表明其版本演进与Sora展示的扩展法则一致。

数据统计

相关导航

Open-Sora Plan v1.2

Open-Sora Plan v1.2是一个开源的视频生成模型，专注于文本到视频的转换任务。它采用3D全注意力架构，优化了视频的视觉表示，并提高了推理效率。该模型在视频生成领域具有创新性，能够更好地捕捉联合空间-时间特征，为视频内容的自动生成提供了新的技术路径。

VideoTetris

VideoTetris是一个新颖的框架，它实现了文本到视频的生成，特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术，精确地遵循复杂的文本语义，并通过操作和组合去噪网络的空间和时间注意力图来实现。此外，它还引入了一种新的参考帧注意力机制，以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

雾象

雾象（Fogsight）是由WaytoAGI团队推出的一款AI动画生成引擎，能够根据用户输入的抽象概念或词语，自动生成生动的叙事动画。雾象通过自然语言处理技术，可以将抽象概念拆解为镜头脚本和旁白，并映射成视觉元素、转场和音效，从而实现动画的自动生成。雾象的核心优势在于其全流程的自动化能力，从剧本创作、分镜设计到最终的动画渲染，均可一键完成。雾象也支持多种多媒体形式的内容生成，不仅限于二维动画，还包括可能的三维效果，可以适用于多种场景和领域。

Keeva AI

Keeva AI是一个多功能的AI数字人视频创作工具，专为海外中小企业和个人创作者提供视频创作解决方案。Keeva AI利用人工智能技术，能够智能生成和翻译视频脚本，并结合高质量的公共人像和模板，可以实现一键生成数字人营销视频的服务。用户只需输入视频主题，Keeva AI即可自动生成脚本并制作完整视频，同时支持上传自有脚本，选择数字人形象和语音生成视频。

Clapper.app

Clapper.app是一个开源的AI故事可视化工具，能够将剧本解读并渲染成故事板、视频、声音和音乐。目前，该工具仍处于早期开发阶段，并不适用于普通用户，因为一些功能尚未完成，也没有教程等。

CogiDigm

CogiDigm利用GenAI技术革新娱乐产业的叙事方式，包括电影制片厂、后期制作和广告代理公司。我们拥有尖端技术，成为行业领跑者。我们与FBRC.ai和AILA合作，提供视频生成和操作服务，释放创造力。我们的理念是采用以人为本的集体智能方法，提供广泛的服务，包括创新的GenAI解决方案、道德的AI模型实施、专业的技术指导、战略咨询和无缝部署专业知识。

TC-Bench

TC-Bench是一个专门用于评估视频生成模型的时间组合性的工具。它通过精心设计的文本提示、相应的真实视频以及强大的评估指标来衡量视频生成模型在不同时间点上新概念的出现及其关系转换的能力。TC-Bench不仅适用于文本条件模型，也适用于图像条件模型，能够进行生成性帧插值。该工具的开发旨在推动视频生成技术的发展，提高生成视频的质量和一致性。

memU

MemU是一款为AI伴侣设计的智能记忆层，提供更高的准确性、更快的检索速度和更低的成本。它是一个开源的AI记忆框架，适用于机器学习、神经网络、对话AI、聊天机器人记忆、AI代理和自主记忆。

暂无评论

您必须登录才能参与评论！

none

暂无评论...