CogVideoX1.5-5B-SAT

11个月前发布 15 00

CogVideoX1.5-5B-SAT是由清华大学知识工程与数据挖掘团队开发的开源视频生成模型,是CogVideoX模型的升级版。该模型支持生成10秒视频,并支持更高分辨率的视频生成。模型包含Transformer、VAE和Text Encoder等模块,能够根据文本描述生成视频内容。CogVideoX1.5-5B-SAT模型以其强大的视...

收录时间:
2025-05-30
CogVideoX1.5-5B-SATCogVideoX1.5-5B-SAT

CogVideoX1.5-5B-SAT是由清华大学知识工程与数据挖掘团队开发的开源视频生成模型,是CogVideoX模型的升级版。该模型支持生成10秒视频,并支持更高分辨率的视频生成。模型包含Transformer、VAE和Text Encoder等模块,能够根据文本描述生成视频内容。CogVideoX1.5-5B-SAT模型以其强大的视频生成能力和高分辨率支持,为视频内容创作者提供了一个强大的工具,尤其在教育、娱乐和商业领域有着广泛的应用前景。

数据统计

相关导航

Sana_600M_512px

Sana_600M_512px

Sana是一个由NVIDIA开发的文本到图像的生成框架,能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力,可以在笔记本电脑GPU上部署,代表了图像生成技术的一个重要进步。该模型基于线性扩散变换器,使用预训练的文本编码器和空间压缩的潜在特征编码器,能够根据文本提示生成和修改图像。Sana的开源代码可在GitHub上找到,其研究和应用前景广阔,尤其在艺术创作、教育工具和模型研究等方面。
Sana_1600M_512px_MultiLing

Sana_1600M_512px_MultiLing

Sana是一个由NVIDIA开发的文本到图像的框架,能够高效生成高达4096×4096分辨率的图像。Sana能够以极快的速度合成高分辨率、高质量的图像,并且具有强烈的文本-图像对齐能力,可以在笔记本电脑GPU上部署。该模型基于线性扩散变换器,使用固定预训练的文本编码器和空间压缩的潜在特征编码器,支持英文、中文和表情符号混合提示。Sana的主要优点包括高效率、高分辨率图像生成能力以及多语言支持。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...