热门

Diffusion as Shader

12个月前发布 22 00

Diffusion as Shader (DaS) 是一种创新的视频生成控制模型，旨在通过3D感知的扩散过程实现对视频生成的多样化控制。该模型利用3D跟踪视频作为控制输入，能够在统一的架构下支持多种视频控制任务，如网格到视频生成、相机控制、运动迁移和对象操作等。DaS的主要优势在于其3D感知能力，能够有效提升生成视频的时间一致性，并在短时...

收录时间：

2025-05-29

打开网站手机查看

视频创作 # 3D感知 # 扩散模型 # 控制任务 # 统一架构 # 视频生成

Diffusion as Shader

Diffusion as Shader

Diffusion as Shader (DaS) 是一种创新的视频生成控制模型，旨在通过3D感知的扩散过程实现对视频生成的多样化控制。该模型利用3D跟踪视频作为控制输入，能够在统一的架构下支持多种视频控制任务，如网格到视频生成、相机控制、运动迁移和对象操作等。DaS的主要优势在于其3D感知能力，能够有效提升生成视频的时间一致性，并在短时间内通过少量数据微调即可展现出强大的控制能力。该模型由香港科技大学等多所高校的研究团队共同开发，旨在推动视频生成技术的发展，为影视制作、虚拟现实等领域提供更为灵活和高效的解决方案。

数据统计

相关导航

SkyReels-V1-Hunyuan-I2V

SkyReels V1 是一个基于 HunyuanVideo 微调的人类中心视频生成模型。它通过高质量影视片段训练，能够生成具有电影级质感的视频内容。该模型在开源领域达到了行业领先水平，尤其在面部表情捕捉和场景理解方面表现出色。其主要优点包括开源领先性、先进的面部动画技术和电影级光影美学。该模型适用于需要高质量视频生成的场景，如影视制作、广告创作等，具有广泛的应用前景。

SynCamMaster

SynCamMaster是一种先进的视频生成技术，它能够从多样化的视角同步生成多摄像机视频。这项技术通过预训练的文本到视频模型，增强了视频内容在不同视角下的动态一致性，对于虚拟拍摄等应用场景具有重要意义。该技术的主要优点包括能够处理开放世界视频的任意视角生成，整合6自由度摄像机姿态，并设计了一种渐进式训练方案，利用多摄像机图像和单目视频作为补充，显著提升了模型性能。

ReCapture

ReCapture是一种从单一用户提供的视频生成新视频和新颖摄像机轨迹的方法。该技术允许我们从完全不同的角度重新生成源视频，并带有电影级别的摄像机运动。ReCapture通过使用多视图扩散模型或基于深度的点云渲染生成带有新摄像机轨迹的嘈杂锚视频，然后通过我们提出的掩蔽视频微调技术将锚视频重新生成为干净且时间上一致的重新角度视频。这种技术的重要性在于它能够利用视频模型的强大先验，将近似的视频重新生成为时间上一致且美观的视频。

长上下文调优（LCT）

长上下文调优（LCT）旨在解决当前单次生成能力与现实叙事视频制作之间的差距。该技术通过数据驱动的方法直接学习场景级一致性，支持交互式多镜头开发和合成生成，适用于视频制作的各个方面。

ComfyUI-WanVideoWrapper

ComfyUI-WanVideoWrapper 是一个为 WanVideo 提供 ComfyUI 节点的工具。它允许用户在 ComfyUI 环境中使用 WanVideo 的功能，实现视频生成和处理。该工具基于 Python 开发，支持高效的内容创作和视频生成，适合需要快速生成视频内容的用户。

Aleph AI – AI Video Editor & Video Generator

Aleph AI 是一款基于先进人工智能技术的视频编辑和生成工具，允许用户通过简单的文本提示来快速修改和生成视频。它能够以高效率和准确性进行复杂的视频编辑，适合各类创作者，无论是专业人士还是初学者，能够轻松实现他们的创意想法。Aleph AI 提供每次生成 10 个积分，并且在处理视频时支持商用许可，极大地降低了视频创作的门槛。

LTXV

LTXV是Lightricks推出的一个实时AI视频生成开源模型，它代表了视频生成技术的最新发展。LTXV能够提供可扩展的长视频制作能力，优化了GPU和TPU系统，大幅减少了视频生成时间，同时保持了高视觉质量。LTXV的独特之处在于其帧到帧学习技术，确保了帧之间的连贯性，消除了闪烁和场景内的不一致问题。这一技术对于视频制作行业来说是一个巨大的进步，因为它不仅提高了效率，还提升了视频内容的质量。

Wan2.1-FLF2V-14B

Wan2.1-FLF2V-14B 是一个开源的大规模视频生成模型，旨在推动视频生成领域的进步。该模型在多项基准测试中表现优异，支持消费者级 GPU，能够高效生成 480P 和 720P 的视频。它在文本到视频、图像到视频等多个任务中表现出色，具有强大的视觉文本生成能力，适用于各种实际应用场景。

暂无评论

您必须登录才能参与评论！

none

暂无评论...