文本到视频

共 20 篇网址

排序

发布更新浏览点赞

Follow-Your-Pose

Follow-Your-Pose是一个文本到视频生成的模型，它利用姿势信息和文本描述来生成可编辑、可控制姿势的角色视频。这项技术在数字人物创作领域具有重要应用价值，解决了缺乏综合数据集和视频生成先验模型的限制。通过两阶段训练方案，结合预训练的文本到图像模型，实现了姿势可控的视频生成。

0160

视频生成 # 人工智能 # 姿势引导 # 数字人物

zeroscope_v2_XL

管道标签不在官方列表中

0150

AIGC影视平台 AI视频模型 # 句子相似性 # 可视化问题解答 # 图像分割

Deforum Al

Deforum是一款基于Stable Diffusion的开源动画生成工具。它可以根据文本描述或参考视频生成图像序列帧，并将这些序列帧合成视频。此外，Deforum还支持添加参考图和参考视频，功能相对全面，并包含一些新的小功能。与AnimateDiff不同，Deforum在生成动画时可能会产生一些闪烁效果。

0150

AI视频工具 # ai动画生成 # AI艺术创作 # Deforum

Dream Machine API

Dream Machine API是一个创意智能平台，它提供了一系列先进的视频生成模型，通过直观的API和开源SDKs，用户可以构建和扩展创意AI产品。该平台拥有文本到视频、图像到视频、关键帧控制、扩展、循环和相机控制等功能，旨在通过创意智能与人类合作，帮助他们创造更好的内容。Dream Machine API的推出，旨在推动视觉探索和创造的丰富性，让更多的想法得以尝试，构建更好的叙事，并让那些以前无法做到的人讲述多样化的故事。

0130

视频生成 # API # SDK # 创意智能

CogVideoX-5B

CogVideoX是一个开源的视频生成模型，由清华大学团队开发，支持从文本描述生成视频。它提供了多种视频生成模型，包括入门级和大型模型，以满足不同质量和成本需求。模型支持多种精度，包括FP16和BF16，推荐使用与模型训练时相同的精度进行推理。CogVideoX-5B模型特别适用于需要生成高质量视频内容的场景，如电影制作、游戏开发和广告创意。

0130

视频生成 # 人工智能 # 文本到视频 # 视频生成

Veo 4

Veo 4是一款AI视频生成平台，提供完整的视频生成套件，能够将文本和图片转化为高质量视频，具有多种功能，包括文本到视频生成、自然语言处理、高分辨率输出等。Veo 4通过AI技术革新了视频编辑和增强，带来高效的视频生成工作流。

0120

文案写作 # ai视频生成 # 文本到视频 # 自然语言处理

Open-Sora Plan v1.2

Open-Sora Plan v1.2是一个开源的视频生成模型，专注于文本到视频的转换任务。它采用3D全注意力架构，优化了视频的视觉表示，并提高了推理效率。该模型在视频生成领域具有创新性，能够更好地捕捉联合空间-时间特征，为视频内容的自动生成提供了新的技术路径。

0120

视频生成 # 3D全注意力 # 开源 # 文本到视频

ClipVideo AI

ClipVideo AI是一个专业的AI视频生成平台，它利用人工智能技术将照片或简单的文本提示转换成引人入胜的视频。该平台以其快速的视频生成工具、企业级的安全性和支持、以及被众多团队信赖而著称。ClipVideo AI提供了从基础到专业的不同定价计划，满足不同用户的需求。

0120

文案写作 # ai视频生成 # 企业级安全 # 教育内容

STAR

STAR是一种创新的视频超分辨率技术，通过将文本到视频扩散模型与视频超分辨率相结合，解决了传统GAN方法中存在的过度平滑问题。该技术不仅能够恢复视频的细节，还能保持视频的时空一致性，适用于各种真实世界的视频场景。STAR由南京大学、字节跳动等机构联合开发，具有较高的学术价值和应用前景。

0120

文案写作 # 图像处理 # 文本到视频 # 时空增强

Allegro-TI2V

Allegro-TI2V是一个文本图像到视频生成模型，它能够根据用户提供的提示和图像生成视频内容。该模型以其开源性、多样化的内容创作能力、高质量的输出、小巧高效的模型参数以及支持多种精度和GPU内存优化而受到关注。它代表了当前人工智能技术在视频生成领域的前沿进展，具有重要的技术价值和商业应用潜力。Allegro-TI2V模型在Hugging Face平台上提供，遵循Apache 2.0开源协议，用户可以免费下载和使用。

0110

文案写作 # 人工智能 # 图像到视频 # 开源模型

Open-Sora-Plan-v1.1.0

Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本，以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进，包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVideoVAE架构，具有更强的性能和更高的推理效率。此外，它还保持了v1.0.0版本的极简设计和数据效率，并且与Sora基础模型的性能相似，表明其版本演进与Sora展示的扩展法则一致。

0110

视频生成 # AI模型 # 开源 # 文本到视频

Wan2.1-T2V-14B

Wan2.1-T2V-14B 是一款先进的文本到视频生成模型，基于扩散变换器架构，结合了创新的时空变分自编码器（VAE）和大规模数据训练。它能够在多种分辨率下生成高质量的视频内容，支持中文和英文文本输入，并在性能和效率上超越现有的开源和商业模型。该模型适用于需要高效视频生成的场景，如内容创作、广告制作和视频编辑等。目前该模型在 Hugging Face 平台上免费提供，旨在推动视频生成技术的发展和应用。

0110

文案写作 # 图像到视频 # 多语言支持 # 开源模型

Viral Video

Viral Video是一个利用人工智能技术帮助用户快速创建病毒式视频的在线平台。它通过文本到视频的转换、文本到语音的转换、AI视频编辑和AI场景生成等功能，简化了视频制作流程，降低了成本，并提高了视频的吸引力和传播潜力。该平台特别适合内容创作者、营销人员和社交媒体运营者，帮助他们以更低的成本和更快的速度制作出高质量的视频内容，从而在社交媒体上获得更多的关注和互动。

0110

文案写作 # ai视频生成 # 内容创作 # 文本到视频

Elai io

Elai.io是一个自动化的AI视频生成平台，允许用户仅使用文本创建定制的AI视频。该平台提供无缝视频生成，无需使用摄像机、工作室或绿屏。

0100

AI音频与视频 # 文本到视频 # 自动化视频生成 # 视频生成

ConsisID

ConsisID是一个基于频率分解的身份保持文本到视频生成模型，它通过在频域中使用身份控制信号来生成与输入文本描述一致的高保真度视频。该模型不需要针对不同案例进行繁琐的微调，并且能够保持生成视频中人物身份的一致性。ConsisID的提出，推动了视频生成技术的发展，特别是在无需调整的流程和频率感知的身份保持控制方案方面。

090

文案写作 # 文本到视频 # 视频生成 # 身份保持

CogVideoX1.5-5B-SAT

CogVideoX1.5-5B-SAT是由清华大学知识工程与数据挖掘团队开发的开源视频生成模型，是CogVideoX模型的升级版。该模型支持生成10秒视频，并支持更高分辨率的视频生成。模型包含Transformer、VAE和Text Encoder等模块，能够根据文本描述生成视频内容。CogVideoX1.5-5B-SAT模型以其强大的视频生成能力和高分辨率支持，为视频内容创作者提供了一个强大的工具，尤其在教育、娱乐和商业领域有着广泛的应用前景。

080

文案写作 # 开源模型 # 文本到视频 # 清华大学

VideoTetris

VideoTetris是一个新颖的框架，它实现了文本到视频的生成，特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术，精确地遵循复杂的文本语义，并通过操作和组合去噪网络的空间和时间注意力图来实现。此外，它还引入了一种新的参考帧注意力机制，以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

070

视频生成 # 人工智能 # 文本到视频 # 机器学习

Pyramid Flow miniFLUX

Pyramid Flow miniFLUX是一个基于流匹配的自回归视频生成方法，专注于训练效率和开源数据集的使用。该模型能够生成高质量的10秒768p分辨率、24帧每秒的视频，并自然支持图像到视频的生成。它是视频内容创作和研究领域的一个重要工具，尤其在需要生成连贯动态图像的场合。

070

文案写作 # 图像到视频 # 文本到视频 # 流匹配

Wan2GP

Wan2GP 是基于 Wan2.1 的改进版本，旨在为低配置 GPU 用户提供高效、低内存占用的视频生成解决方案。该模型通过优化内存管理和加速算法，使得普通用户也能在消费级 GPU 上快速生成高质量的视频内容。它支持多种任务，包括文本到视频、图像到视频、视频编辑等，同时具备强大的视频 VAE 架构，能够高效处理 1080P 视频。Wan2GP 的出现降低了视频生成技术的门槛，使得更多用户能够轻松上手并应用于实际场景。

060

文案写作 # AI # 低配置 GPU # 图像到视频

VideoVAEPlus

这是一个视频变分自编码器（VAE），旨在减少视频冗余并促进高效视频生成。该模型通过观察发现，将图像VAE直接扩展到3D VAE会引入运动模糊和细节失真，因此提出了时间感知的空间压缩以更好地编码和解码空间信息。此外，该模型还集成了一个轻量级的运动压缩模型以实现进一步的时间压缩。通过利用文本到视频数据集中固有的文本信息，并在模型中加入文本指导，显著提高了重建质量，特别是在细节保留和时间稳定性方面。该模型还通过在图像和视频上进行联合训练来提高其通用性，不仅提高了重建质量，还使模型能够执行图像和视频的自编码。广泛的评估表明，该方法的性能优于最近的强基线。

050

文案写作 # 变分自编码器 # 文本到视频 # 时间压缩