扩散模型

共 32 篇网址

排序

发布更新浏览点赞

Hunyuan3D 2.0

Hunyuan3D 2.0 是腾讯推出的一种先进大规模 3D 合成系统，专注于生成高分辨率纹理化的 3D 资产。该系统包括两个基础组件：大规模形状生成模型 Hunyuan3D-DiT 和大规模纹理合成模型 Hunyuan3D-Paint。它通过解耦形状和纹理生成的难题，为用户提供了灵活的 3D 资产创作平台。该系统在几何细节、条件对齐、纹理质量等方面超越了现有的开源和闭源模型，具有极高的实用性和创新性。目前，该模型的推理代码和预训练模型已开源，用户可以通过官网或 Hugging Face 空间快速体验。

0310

文案写作 # 3D # AIGC # 图像到 3D

MGIE

MGIE 是苹果团队开源的一款 AI 图像编辑工具，它利用多模态大模型来增强图像编辑的指令引导能力。用户只需拍摄照片并输入文字指令，MGIE 便能够自动进行图像编辑，实现用户所需的视觉效果。

0260

AIGC绘画工具 AI绘画模型 # AI 图像编辑 # AI绘画模型 # MGIE

RenderNet AI

RenderNet是一款强大的AI图像生成器，可以创建具有一致性的角色，并完全控制其姿势、构图和风格。适用于游戏素材、头像生成、时尚设计和产品摄影等场景。

0230

图像AI 图像生成 # ai图像生成器 # GPU加速 # 免费增值。

DiffSensei

DiffSensei是一个结合了多模态大型语言模型（LLMs）和扩散模型的定制化漫画生成模型。它能够根据用户提供的文本提示和角色图像，生成可控制的黑白漫画面板，并具有灵活的角色适应性。这项技术的重要性在于它将自然语言处理与图像生成相结合，为漫画创作和个性化内容生成提供了新的可能性。DiffSensei模型以其高质量的图像生成、多样化的应用场景以及对资源的高效利用而受到关注。目前，该模型在GitHub上公开，可以免费下载使用，但具体的使用可能需要一定的计算资源。

0230

图像生成 # 人工智能 # 图像生成 # 多模态

InfiniteYou

InfiniteYou（InfU）是一个基于扩散变换器的强大框架，旨在实现灵活的图像重构，并保持用户身份。它通过引入身份特征并采用多阶段训练策略，显著提升了图像生成的质量和美学，同时改善了文本与图像的对齐。该技术对提高图像生成的相似性和美观性具有重要意义，适用于各种图像生成任务。

0200

图像生成 # AI # 图像生成 # 扩散模型

OneDiffusion

OneDiffusion是一个多功能、大规模的扩散模型，它能够无缝支持双向图像合成和理解，覆盖多种任务。该模型预计将在12月初发布代码和检查点。OneDiffusion的重要性在于其能够处理图像合成和理解任务，这在人工智能领域是一个重要的进步，尤其是在图像生成和识别方面。产品背景信息显示，这是一个由多位研究人员共同开发的项目，其研究成果已在arXiv上发表。

0200

图像生成 # 人工智能 # 图像合成 # 图像理解

UniAnimate

UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间，以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列，支持随机噪声输入和首帧条件输入，显著提高了生成长期视频的能力。此外，它还探索了基于状态空间模型的替代时间建模架构，以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果，并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。

0180

视频生成 # 人物动画 # 扩散模型 # 时间建模

genmoai

genmoai/models 是一个开源的视频生成模型，代表了视频生成技术的最新进展。该模型名为 Mochi 1，是一个基于 Asymmetric Diffusion Transformer (AsymmDiT) 架构的10亿参数扩散模型，从零开始训练，是迄今为止公开发布的最大的视频生成模型。它具有高保真运动和强提示遵循性，显著缩小了封闭和开放视频生成系统之间的差距。该模型在 Apache 2.0 许可下发布，用户可以在 Genmo 的 playground 上免费试用此模型。

0180

视频创作 # 人工智能 # 开源 # 扩散模型

SLD (Self-correcting LLM-controlled Diffusion Models)

SLD是一个自纠正的LLM控制的扩散模型框架，它通过集成检测器增强生成模型，以实现精确的文本到图像对齐。SLD框架支持图像生成和精细编辑，并且与任何图像生成器兼容，如DALL-E 3，无需额外训练或数据。

0170

艺术创作 # AI艺术 # 图像生成 # 扩散模型

Diffusion as Shader

Diffusion as Shader (DaS) 是一种创新的视频生成控制模型，旨在通过3D感知的扩散过程实现对视频生成的多样化控制。该模型利用3D跟踪视频作为控制输入，能够在统一的架构下支持多种视频控制任务，如网格到视频生成、相机控制、运动迁移和对象操作等。DaS的主要优势在于其3D感知能力，能够有效提升生成视频的时间一致性，并在短时间内通过少量数据微调即可展现出强大的控制能力。该模型由香港科技大学等多所高校的研究团队共同开发，旨在推动视频生成技术的发展，为影视制作、虚拟现实等领域提供更为灵活和高效的解决方案。

0160

视频创作 # 3D感知 # 扩散模型 # 控制任务

Make-An-Audio 2

Make-An-Audio 2是一种基于扩散模型的文本到音频生成技术，由浙江大学、字节跳动和香港中文大学的研究人员共同开发。该技术通过使用预训练的大型语言模型(LLMs)解析文本，优化了语义对齐和时间一致性，提高了生成音频的质量。它还设计了基于前馈Transformer的扩散去噪器，以改善变长音频生成的性能，并增强时间信息的提取。此外，通过使用LLMs将大量音频标签数据转换为音频文本数据集，解决了时间数据稀缺的问题。

0160

音频处理 # 大型语言模型 # 扩散模型 # 文本到音频

RodinHD

RodinHD是一个基于扩散模型的高保真3D头像生成技术，由Bowen Zhang、Yiji Cheng等研究者开发，旨在从单一肖像图像生成细节丰富的3D头像。该技术解决了现有方法在捕捉发型等复杂细节时的不足，通过新颖的数据调度策略和权重整合正则化项，提高了解码器渲染锐利细节的能力。此外，通过多尺度特征表示和交叉注意力机制，优化了肖像图像的引导效果，生成的3D头像在细节上显著优于以往方法，并且能够泛化到野外肖像输入。

0150

头像生成 # 3D头像 # AI技术 # 图像生成

ComfyUI_HelloMeme

HelloMeme是一个集成了空间编织注意力（Spatial Knitting Attentions）的扩散模型，用于嵌入高级别和细节丰富的条件。该模型支持图像和视频的生成，具有改善生成视频与驱动视频之间表情一致性、减少VRAM使用、优化算法等优点。HelloMeme由HelloVision团队开发，属于HelloGroup Inc.，是一个前沿的图像和视频生成技术，具有重要的商业和教育价值。

0140

图像生成 # 图像生成 # 扩散模型 # 空间编织注意力

TokenVerse

TokenVerse 是一种创新的多概念个性化方法，它利用预训练的文本到图像扩散模型，能够从单张图像中解耦复杂的视觉元素和属性，并实现无缝的概念组合生成。这种方法突破了现有技术在概念类型或广度上的限制，支持多种概念，包括物体、配饰、材质、姿势和光照等。TokenVerse 的重要性在于其能够为图像生成领域带来更灵活、更个性化的解决方案，满足用户在不同场景下的多样化需求。目前，TokenVerse 的代码尚未公开，但其在个性化图像生成方面的潜力已经引起了广泛关注。

0140

图像生成 # 个性化 # 图像生成 # 多概念

text-to-pose

text-to-pose是一个研究项目，旨在通过文本描述生成人物姿态，并利用这些姿态生成图像。该技术结合了自然语言处理和计算机视觉，通过改进扩散模型的控制和质量，实现了从文本到图像的生成。项目背景基于NeurIPS 2024 Workshop上发表的论文，具有创新性和前沿性。该技术的主要优点包括提高图像生成的准确性和可控性，以及在艺术创作和虚拟现实等领域的应用潜力。

0140

文案写作 # 姿态估计 # 扩散模型 # 文本到图像

Dream 7B

Dream 7B 是由香港大学 NLP 组和华为诺亚方舟实验室联合推出的最新扩散大语言模型。它在文本生成领域展现了优异的性能，特别是在复杂推理、长期规划和上下文连贯性等方面。该模型采用了先进的训练方法，具有强大的计划能力和灵活的推理能力，为各类 AI 应用提供了更为强大的支持。

0140

文案写作 # AI # 大语言模型 # 扩散模型

Leffa

Leffa是一个用于可控人物图像生成的统一框架，它能够精确控制人物的外观（例如虚拟试穿）和姿态（例如姿态转移）。该模型通过在训练期间引导目标查询关注参考图像中的相应区域，减少细节扭曲，同时保持高图像质量。Leffa的主要优点包括模型无关性，可以用于提升其他扩散模型的性能。

0140

图像生成 # 图像生成 # 姿态转移 # 扩散模型

On-device Sora

On-device Sora 是一个开源项目，旨在通过线性比例跳跃（LPL）、时间维度标记合并（TDTM）和动态加载并发推理（CI-DL）等技术，实现在移动设备（如 iPhone 15 Pro）上高效的视频生成。该项目基于 Open-Sora 模型开发，能够根据文本输入生成高质量视频。其主要优点包括高效性、低功耗和对移动设备的优化。该技术适用于需要在移动设备上快速生成视频内容的场景，如短视频创作、广告制作等。项目目前开源，用户可以免费使用。

0130

视频创作 # AI # 开源 # 扩散模型

FasterCache

FasterCache是一种创新的无需训练的策略，旨在加速视频扩散模型的推理过程，并生成高质量的视频内容。这一技术的重要性在于它能够显著提高视频生成的效率，同时保持或提升内容的质量，这对于需要快速生成视频内容的行业来说是非常有价值的。FasterCache由来自香港大学、南洋理工大学和上海人工智能实验室的研究人员共同开发，项目页面提供了更多的视觉结果和详细信息。产品目前免费提供，主要面向视频内容生成、AI研究和开发等领域。

0130

视频创作 # AI加速 # 扩散模型 # 无需训练

Go with the Flow

Go with the Flow 是一种创新的视频生成技术，通过使用扭曲噪声代替传统的高斯噪声，实现了对视频扩散模型运动模式的高效控制。该技术无需对原始模型架构进行修改，即可在不增加计算成本的情况下，实现对视频中物体和相机运动的精确控制。其主要优点包括高效性、灵活性和可扩展性，能够广泛应用于图像到视频生成、文本到视频生成等多种场景。该技术由 Netflix Eyeline Studios 等机构的研究人员开发，具有较高的学术价值和商业应用潜力，目前开源免费提供给公众使用。

0120

视频创作 # AI # 开源 # 扩散模型

JoyVASA

JoyVASA是一种基于扩散模型的音频驱动人像动画技术，它通过分离动态面部表情和静态3D面部表示来生成面部动态和头部运动。这项技术不仅能够提高视频质量和唇形同步的准确性，还能扩展到动物面部动画，支持多语言，并在训练和推理效率上有所提升。JoyVASA的主要优点包括更长视频生成能力、独立于角色身份的运动序列生成以及高质量的动画渲染。

0120

音频处理 # 人像动画 # 多语言支持 # 头部运动

AccVideo

AccVideo 是一种新颖的高效蒸馏方法，通过合成数据集加速视频扩散模型的推理速度。该模型能够在生成视频时实现 8.5 倍的速度提升，同时保持相似的性能。它使用预训练的视频扩散模型生成多条有效去噪轨迹，从而优化了数据的使用和生成过程。AccVideo 特别适用于需要高效视频生成的场景，如电影制作、游戏开发等，适合研究人员和开发者使用。

0110

视频创作 # 人工智能 # 合成数据 # 扩散模型

StreamV2V

StreamV2V是一个扩散模型，它通过用户提示实现了实时的视频到视频（V2V）翻译。与传统的批处理方法不同，StreamV2V采用流式处理方式，能够处理无限帧的视频。它的核心是维护一个特征库，该库存储了过去帧的信息。对于新进来的帧，StreamV2V通过扩展自注意力和直接特征融合技术，将相似的过去特征直接融合到输出中。特征库通过合并存储的和新的特征不断更新，保持紧凑且信息丰富。StreamV2V以其适应性和效率脱颖而出，无需微调即可与图像扩散模型无缝集成。

0110

智能翻译 # 实时处理 # 扩散模型 # 特征库

InstantIR

InstantIR是一种基于扩散模型的盲图像恢复方法，能够在测试时处理未知退化问题，提高模型的泛化能力。该技术通过动态调整生成条件，在推理过程中生成参考图像，从而提供稳健的生成条件。InstantIR的主要优点包括：能够恢复极端退化的图像细节，提供逼真的纹理，并且通过文本描述调节生成参考，实现创造性的图像恢复。该技术由北京大学、InstantX团队和香港中文大学的研究人员共同开发，得到了HuggingFace和fal.ai的赞助支持。

0110

图像生成 # 图像增强 # 图像恢复 # 扩散模型

Diffusion Self-Distillatio

Diffusion Self-Distillation是一种基于扩散模型的自蒸馏技术，用于零样本定制图像生成。该技术允许艺术家和用户在没有大量配对数据的情况下，通过预训练的文本到图像的模型生成自己的数据集，进而微调模型以实现文本和图像条件的图像到图像任务。这种方法在保持身份生成任务的性能上超越了现有的零样本方法，并能与每个实例的调优技术相媲美，无需测试时优化。

0100

图像生成 # 图像生成 # 扩散模型 # 自蒸馏

X-Dyna

X-Dyna是一种创新的零样本人类图像动画生成技术，通过将驱动视频中的面部表情和身体动作迁移到单张人类图像上，生成逼真且富有表现力的动态效果。该技术基于扩散模型，通过Dynamics-Adapter模块，将参考外观上下文有效整合到扩散模型的空间注意力中，同时保留运动模块合成流畅复杂动态细节的能力。它不仅能够实现身体姿态控制，还能通过本地控制模块捕捉与身份无关的面部表情，实现精确的表情传递。X-Dyna在多种人类和场景视频的混合数据上进行训练，能够学习物理人体运动和自然场景动态，生成高度逼真和富有表现力的动画。

0100

图像生成 # 动态生成 # 图像动画 # 扩散模型

CAT4D

CAT4D是一个利用多视图视频扩散模型从单目视频中生成4D场景的技术。它能够将输入的单目视频转换成多视角视频，并重建动态的3D场景。这项技术的重要性在于它能够从单一视角的视频资料中提取并重建出三维空间和时间的完整信息，为虚拟现实、增强现实以及三维建模等领域提供了强大的技术支持。产品背景信息显示，CAT4D由Google DeepMind、Columbia University和UC San Diego的研究人员共同开发，是一个前沿的科研成果转化为实际应用的案例。

090

视频创作 # 3D重建 # 4D场景 # 增强现实

TryOffDiff

TryOffDiff是一种基于扩散模型的高保真服装重建技术，用于从穿着个体的单张照片中生成标准化的服装图像。这项技术与传统的虚拟试穿不同，它旨在提取规范的服装图像，这在捕捉服装形状、纹理和复杂图案方面提出了独特的挑战。TryOffDiff通过使用Stable Diffusion和基于SigLIP的视觉条件来确保高保真度和细节保留。该技术在VITON-HD数据集上的实验表明，其方法优于基于姿态转移和虚拟试穿的基线方法，并且需要较少的预处理和后处理步骤。TryOffDiff不仅能够提升电子商务产品图像的质量，还能推进生成模型的评估，并激发未来在高保真重建方面的工作。

090

图像生成 # Stable Diffusion # 图像处理 # 扩散模型

AnimeMaker

AnimeMaker是一款生成动画图像的工具，基于扩散模型生成高质量动漫图像。graydient.ai是一个提供免费AI图像生成器的网站，提供详细的指南。该工具基于扩散模型生成动漫图像，以提供更高的质量。

090

AI图像与设计 # 免费AI图像生成器 # 动画图像生成器 # 扩散模型

ColorFlow

ColorFlow是一个为图像序列着色而设计的模型，特别注重在着色过程中保留角色和对象的身份信息。该模型利用上下文信息，能够根据参考图像池为黑白图像序列中的不同元素（如角色的头发和服装）准确生成颜色，并确保与参考图像的颜色一致性。ColorFlow通过三个阶段的扩散模型框架，提出了一种新颖的检索增强着色流程，无需每个身份的微调或显式身份嵌入提取，即可实现具有相关颜色参考的图像着色。ColorFlow的主要优点包括其在保留身份信息的同时，还能提供高质量的着色效果，这对于卡通或漫画系列的着色具有重要的市场价值。

090

图像生成 # 上下文信息 # 图像着色 # 扩散模型

Color-diffusion

Color-diffusion是一个基于扩散模型的图像着色项目，它使用LAB颜色空间对黑白图片进行上色。该项目的主要优点在于能够利用已有的灰度信息（L通道），通过训练模型来预测颜色信息（A和B通道）。这种技术在图像处理领域具有重要意义，尤其是在老照片修复和艺术创作中。Color-diffusion作为一个开源项目，其背景信息显示，它是作者为了满足好奇心和体验从头开始训练扩散模型而快速构建的。项目目前是免费的，并且有很大的改进空间。

090

图像生成 # LAB颜色空间 # UNet # 图像着色

TCAN

TCAN是一种基于扩散模型的新型人像动画框架，它能够保持时间一致性并很好地泛化到未见过的领域。该框架通过特有的模块，如外观-姿态自适应层(APPA层)、时间控制网络和姿态驱动的温度图，来确保生成的视频既保持源图像的外观，又遵循驱动视频的姿态，同时保持背景的一致性。

060

开发者工具 # 人像动画 # 开发编程 # 扩散模型