
CogVideoX-2B
CogVideoX-2B是一个开源的视频生成模型,由清华大学团队开发。它支持使用英语提示语言生成视频,具有36GB的推理GPU内存需求,并且可以生成6秒长、每秒8帧、分辨率为720*480的视频。该模型使用正弦位置嵌入,目前不支持量化推理和多卡推理。它基于Hugging Face的diffusers库进行部署,能够根据文本提示生成视频,具有高度的创造性和应用潜力。
CogVideoX是一个开源的视频生成模型,由清华大学团队开发,支持从文本描述生成视频。它提供了多种视频生成模型,包括入门级和大型模型,以满足不同质量和成本需求。模型支持多种精度,包括FP16和BF16,推荐使用与模型训练时相同的精度进行推理。CogVideoX-5B模型特别适用于需要生成高质量视频内容的场景,如电影制作、游戏开发和广告创意。