热门

PCM

1年前发布 19 00

Phased Consistency Model（PCM）是一种新型的生成模型，旨在解决Latent Consistency Model（LCM）在文本条件高分辨率生成中的局限性。PCM通过创新的策略在训练和推理阶段提高了生成质量，并通过广泛的实验验证了其在不同步骤（1步、2步、4步、8步、16步）下与Stable Diffusion和S...

收录时间：

2025-05-30

打开网站手机查看

视频生成 # 图像生成 # 文本条件生成 # 生成模型 # 视频生成

PCM

PCM

Phased Consistency Model（PCM）是一种新型的生成模型，旨在解决Latent Consistency Model（LCM）在文本条件高分辨率生成中的局限性。PCM通过创新的策略在训练和推理阶段提高了生成质量，并通过广泛的实验验证了其在不同步骤（1步、2步、4步、8步、16步）下与Stable Diffusion和Stable Diffusion XL基础模型的结合效果。

数据统计

相关导航

Keeva AI

Keeva AI是一个多功能的AI数字人视频创作工具，专为海外中小企业和个人创作者提供视频创作解决方案。Keeva AI利用人工智能技术，能够智能生成和翻译视频脚本，并结合高质量的公共人像和模板，可以实现一键生成数字人营销视频的服务。用户只需输入视频主题，Keeva AI即可自动生成脚本并制作完整视频，同时支持上传自有脚本，选择数字人形象和语音生成视频。

Follow-Your-Pose

Follow-Your-Pose是一个文本到视频生成的模型，它利用姿势信息和文本描述来生成可编辑、可控制姿势的角色视频。这项技术在数字人物创作领域具有重要应用价值，解决了缺乏综合数据集和视频生成先验模型的限制。通过两阶段训练方案，结合预训练的文本到图像模型，实现了姿势可控的视频生成。

CamCo

CamCo是一个创新的图像到视频生成框架，它能够生成具有3D一致性的高质量视频。该框架通过Plücker坐标引入相机信息，并提出了一种符合几何一致性的双线约束注意力模块。此外，CamCo在通过运动结构算法估计相机姿态的真实世界视频上进行了微调，以更好地合成物体运动。

通义视频

通义视频是阿里云旗下通义万相平台推出的AI视频生成工具，于2024年9月19日的云栖大会上正式发布。通义AI生视频支持“文生视频”和“图生视频”两种创作模式，用户可以通过输入文本或图片上传，快速生成高质量的影视级视频内容。通义视频依托阿里自研的AI视频生成大模型，具备强大的风格泛化和动态生成能力，擅长概念理解与组合生成，可以根据用户需求生成不同风格的视频画面。通义万相AI视频还特别注重中式元素的表现，在制作中国风视频时表现出色。

FIFO-Diffusion

FIFO-Diffusion是一种基于预训练扩散模型的新颖推理技术，用于文本条件视频生成。它能够无需训练生成无限长的视频，通过迭代执行对角去噪，同时处理队列中一系列连续帧的逐渐增加的噪声水平；该方法在头部出队一个完全去噪的帧，同时在尾部入队一个新的随机噪声帧。此外，引入了潜在分割来减少训练推理差距，并通过前瞻去噪来利用前向引用的好处。

ComfyUI-LumaAI-API

ComfyUI-LumaAI-API是一个为ComfyUI设计的插件，它允许用户直接在ComfyUI中使用Luma AI API。Luma AI API基于Dream Machine视频生成模型，由Luma开发。该插件通过提供多种节点，如文本到视频、图像到视频、视频预览等，极大地丰富了视频生成的可能性，为视频创作者和开发者提供了便捷的工具。

AppMall应用商店

AppMall是一个创新的网页端AI应用商店，致力于为用户打造一个高效、灵活的AI应用生态系统。AppMall提供多种AI应用供用户安装和使用，通过直观的界面以及便捷的操作，用户可以轻松管理AI应用、下载模型。无论是数据处理、模型训练，还是部署智能应用，AppMall AI应用中心都可以为您提供便捷的解决方案。

雾象

雾象（Fogsight）是由WaytoAGI团队推出的一款AI动画生成引擎，能够根据用户输入的抽象概念或词语，自动生成生动的叙事动画。雾象通过自然语言处理技术，可以将抽象概念拆解为镜头脚本和旁白，并映射成视觉元素、转场和音效，从而实现动画的自动生成。雾象的核心优势在于其全流程的自动化能力，从剧本创作、分镜设计到最终的动画渲染，均可一键完成。雾象也支持多种多媒体形式的内容生成，不仅限于二维动画，还包括可能的三维效果，可以适用于多种场景和领域。

暂无评论

您必须登录才能参与评论！

none

暂无评论...