扩散变换器

共 4 篇网址

排序

发布更新浏览点赞

InstantCharacter

InstantCharacter 是一个基于扩散变换器的角色个性化框架，旨在克服现有学习基础自定义方法的局限性。该框架的主要优点在于开放域个性化、高保真结果以及有效的角色特征处理能力，适合各种角色外观、姿势和风格的生成。该框架利用一个包含千万级样本的大规模数据集进行训练，以实现角色一致性和文本可编辑性的同时优化。该技术为角色驱动的图像生成设定了新的基准。

0180

图像生成 # 个性化 # 人工智能 # 图像处理

FantasyPortrait

FantasyPortrait 是一种高保真、多情感的肖像动画生成框架，使用表达增强学习策略来捕捉细腻的面部动态，适合单角色和多角色场景。该技术的优势在于其独特的掩蔽交叉注意机制，有效防止了特征干扰，提升了动画的质量与表现力。该产品背景源于对现有面部动画方法的不足的反思，尤其是在处理多角色互动时的挑战。未来将以开源形式提供代码与模型，鼓励研究与开发。

080

图像生成 # 动画 # 图像生成 # 多角色

In-Context LoRA for Diffusion Transformers

In-Context LoRA是一种用于扩散变换器（DiTs）的微调技术，它通过结合图像而非仅仅文本，实现了在保持任务无关性的同时，对特定任务进行微调。这种技术的主要优点是能够在小数据集上进行有效的微调，而不需要对原始DiT模型进行任何修改，只需改变训练数据即可。In-Context LoRA通过联合描述多张图像并应用任务特定的LoRA微调，生成高保真度的图像集合，更好地符合提示要求。该技术对于图像生成领域具有重要意义，因为它提供了一种强大的工具，可以在不牺牲任务无关性的前提下，为特定任务生成高质量的图像。

070

图像生成 # LORA # 任务无关性 # 图像生成

MelodyFlow

MelodyFlow是一个基于文本控制的高保真音乐生成和编辑模型，它使用连续潜在表示序列，避免了离散表示的信息丢失问题。该模型基于扩散变换器架构，经过流匹配目标训练，能够生成和编辑多样化的高质量立体声样本，且具有文本描述的简单性。MelodyFlow还探索了一种新的正则化潜在反转方法，用于零样本测试时的文本引导编辑，并展示了其在多种音乐编辑提示中的优越性能。该模型在客观和主观指标上进行了评估，证明了其在标准文本到音乐基准测试中的质量与效率上与评估基线相当，并且在音乐编辑方面超越了以往的最先进技术。

050

文案写作 # 扩散变换器 # 文本引导 # 流匹配