InfiniteYouInfiniteYou(InfU)是一个基于扩散变换器的强大框架,旨在实现灵活的图像重构,并保持用户身份。它通过引入身份特征并采用多阶段训练策略,显著提升了图像生成的质量和美学,同时改善了文本与图像的对齐。该技术对提高图像生成的相似性和美观性具有重要意义,适用于各种图像生成任务。
ComfyUI_HelloMemeHelloMeme是一个集成了空间编织注意力(Spatial Knitting Attentions)的扩散模型,用于嵌入高级别和细节丰富的条件。该模型支持图像和视频的生成,具有改善生成视频与驱动视频之间表情一致性、减少VRAM使用、优化算法等优点。HelloMeme由HelloVision团队开发,属于HelloGroup Inc.,是一个前沿的图像和视频生成技术,具有重要的商业和教育价值。
ColorFlowColorFlow是一个为图像序列着色而设计的模型,特别注重在着色过程中保留角色和对象的身份信息。该模型利用上下文信息,能够根据参考图像池为黑白图像序列中的不同元素(如角色的头发和服装)准确生成颜色,并确保与参考图像的颜色一致性。ColorFlow通过三个阶段的扩散模型框架,提出了一种新颖的检索增强着色流程,无需每个身份的微调或显式身份嵌入提取,即可实现具有相关颜色参考的图像着色。ColorFlow的主要优点包括其在保留身份信息的同时,还能提供高质量的着色效果,这对于卡通或漫画系列的着色具有重要的市场价值。
LeffaLeffa是一个用于可控人物图像生成的统一框架,它能够精确控制人物的外观(例如虚拟试穿)和姿态(例如姿态转移)。该模型通过在训练期间引导目标查询关注参考图像中的相应区域,减少细节扭曲,同时保持高图像质量。Leffa的主要优点包括模型无关性,可以用于提升其他扩散模型的性能。
TryOffDiffTryOffDiff是一种基于扩散模型的高保真服装重建技术,用于从穿着个体的单张照片中生成标准化的服装图像。这项技术与传统的虚拟试穿不同,它旨在提取规范的服装图像,这在捕捉服装形状、纹理和复杂图案方面提出了独特的挑战。TryOffDiff通过使用Stable Diffusion和基于SigLIP的视觉条件来确保高保真度和细节保留。该技术在VITON-HD数据集上的实验表明,其方法优于基于姿态转移和虚拟试穿的基线方法,并且需要较少的预处理和后处理步骤。TryOffDiff不仅能够提升电子商务产品图像的质量,还能推进生成模型的评估,并激发未来在高保真重建方面的工作。
Diffusion Self-DistillatioDiffusion Self-Distillation是一种基于扩散模型的自蒸馏技术,用于零样本定制图像生成。该技术允许艺术家和用户在没有大量配对数据的情况下,通过预训练的文本到图像的模型生成自己的数据集,进而微调模型以实现文本和图像条件的图像到图像任务。这种方法在保持身份生成任务的性能上超越了现有的零样本方法,并能与每个实例的调优技术相媲美,无需测试时优化。
InstantIRInstantIR是一种基于扩散模型的盲图像恢复方法,能够在测试时处理未知退化问题,提高模型的泛化能力。该技术通过动态调整生成条件,在推理过程中生成参考图像,从而提供稳健的生成条件。InstantIR的主要优点包括:能够恢复极端退化的图像细节,提供逼真的纹理,并且通过文本描述调节生成参考,实现创造性的图像恢复。该技术由北京大学、InstantX团队和香港中文大学的研究人员共同开发,得到了HuggingFace和fal.ai的赞助支持。