热门

VideoTetris

11个月前发布 21 00

VideoTetris是一个新颖的框架，它实现了文本到视频的生成，特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术，精确地遵循复杂的文本语义，并通过操作和组合去噪网络的空间和时间注意力图来实现。此外，它还引入了一种新的参考帧注意力机制，以提高自回归视频生成的一致性。VideoTetris在组合...

收录时间：

2025-05-30

打开网站手机查看

视频生成 # 人工智能 # 文本到视频 # 机器学习 # 视频生成

VideoTetris

VideoTetris

VideoTetris是一个新颖的框架，它实现了文本到视频的生成，特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术，精确地遵循复杂的文本语义，并通过操作和组合去噪网络的空间和时间注意力图来实现。此外，它还引入了一种新的参考帧注意力机制，以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

数据统计

相关导航

Animanic

Animanic是一个教育技术产品，它通过交互式文本到视频的生成，使用户能够以全新的方式学习新概念。该产品利用AI动画引擎，将复杂的概念以美观的方式进行可视化，同时提供讨论功能，允许用户与Animanic导师在视频中进行交流，以解答问题并满足用户的好奇心。目前处于Beta测试阶段，免费提供给用户试用，并积极寻求反馈以优化产品体验。

造点AI

造点AI是夸克（Quark）推出的AI图像创作生成平台，集成AI生图与AI生视频两大核心能力，于2025年9月24日正式发布。造点AI依托通义万相Wan2.5模型，是首个支持音画同步视频生成的平台，可以生成和画面匹配的人声、音效和背景音乐。造点AI视频支持10S时长的视频生成，单次生成即可实现完整的剧情故事，画质能够满足电影级场景的需求。造点AI生图全面支持 Midjourney V7的多项核心能力，包括多图参考、风格代码、精细化参数控制等，可以满足专业创作者在构图、风格与细节上的高阶需求。

Open-Sora-Plan-v1.1.0

Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本，以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进，包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVideoVAE架构，具有更强的性能和更高的推理效率。此外，它还保持了v1.0.0版本的极简设计和数据效率，并且与Sora基础模型的性能相似，表明其版本演进与Sora展示的扩展法则一致。

Runway API

Runway API是一个强大的视频模型平台，提供先进的生成视频模型，允许用户在安全、可靠的环境中嵌入Gen-3 Alpha Turbo到他们的产品中。它支持广泛的应用场景，包括创意广告、音乐视频、电影制作等，是全球顶尖创意人士的首选。

Keeva AI

Keeva AI是一个多功能的AI数字人视频创作工具，专为海外中小企业和个人创作者提供视频创作解决方案。Keeva AI利用人工智能技术，能够智能生成和翻译视频脚本，并结合高质量的公共人像和模板，可以实现一键生成数字人营销视频的服务。用户只需输入视频主题，Keeva AI即可自动生成脚本并制作完整视频，同时支持上传自有脚本，选择数字人形象和语音生成视频。

ShortVideoGen

ShortVideoGen是一个简单易用的文本转视频应用，帮助用户快速生成高质量的短视频，适用于内容创作、广告营销和社交媒体等场景。

One Shot Talking Face

One Shot Talking Face是一个基于Hugging Face的应用程序，可以通过上传一张人脸照片，生成一个能够说话的人脸视频。它具有简单易用的界面，支持自定义文本和语音风格，适用于娱乐、教育和广告等领域。

Spark Namer

Spark Namer是一款使用人工智能技术生成应用程序域名的工具。它的主要优点在于通过智能算法帮助用户快速找到可用的域名，节省用户时间和精力。产品定位为提供高效、智能的域名生成服务。

暂无评论

您必须登录才能参与评论！

none

暂无评论...