热门

稳定扩散

11个月前发布 9 00

稳定扩散是一个深度学习，文本到图像的模型，于2022年发布。主要用于生成基于文本描述的详细图像，但也可以应用于其他任务，如修复、超出原始边界以及生成由文本提示引导的图像到图像翻译。

收录时间：

2025-05-30

打开网站手机查看

图像生成 # 图像生成

稳定扩散

稳定扩散

稳定扩散是一个深度学习，文本到图像的模型，于2022年发布。主要用于生成基于文本描述的详细图像，但也可以应用于其他任务，如修复、超出原始边界以及生成由文本提示引导的图像到图像翻译。

数据统计

相关导航

Janus-Pro-1B

Janus-Pro-1B 是一个创新的多模态模型，专注于统一多模态理解和生成。它通过分离视觉编码路径，解决了传统方法在理解和生成任务中的冲突问题，同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性，还使其在多模态任务中表现出色，甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并采用特定的图像生成 tokenizer。其开源性和灵活性使其成为下一代多模态模型的有力候选。

VisualCloze

VisualCloze 是一个通过视觉上下文学习的通用图像生成框架，旨在解决传统任务特定模型在多样化需求下的低效率问题。该框架不仅支持多种内部任务，还能泛化到未见过的任务，通过可视化示例帮助模型理解任务。这种方法利用了先进的图像填充模型的强生成先验，为图像生成提供了强有力的支持。

RocketAI

设计的未来是可编程的。Rocket AI是一个SaaS平台，使用AI创建和编辑产品图像，并使用AI提高电子商务销售和广告表现。我们为电子商务企业提供AI解决方案，以改善其产品图像，并从简单的文本提示中生成新的想法和设计概念。

Grok App

Grok是一个由X.AI Corp开发的AI助手应用，旨在提供最真实、有用和好奇的答案。用户可以通过Grok获取任何问题的答案、生成引人注目的图像，并上传图片以更深入地了解世界。Grok以其高质量的图像生成、实时更新的数据、对话式的幽默语气和注重隐私的特性，为用户提供了一个安全、高效的AI体验平台。

TokenVerse

TokenVerse 是一种创新的多概念个性化方法，它利用预训练的文本到图像扩散模型，能够从单张图像中解耦复杂的视觉元素和属性，并实现无缝的概念组合生成。这种方法突破了现有技术在概念类型或广度上的限制，支持多种概念，包括物体、配饰、材质、姿势和光照等。TokenVerse 的重要性在于其能够为图像生成领域带来更灵活、更个性化的解决方案，满足用户在不同场景下的多样化需求。目前，TokenVerse 的代码尚未公开，但其在个性化图像生成方面的潜力已经引起了广泛关注。

Xno.ai

探索19个顶尖的文本到图像AI，使用39个GPU。

IMM

Inductive Moment Matching (IMM) 是一种先进的生成模型技术，主要用于高质量图像生成。该技术通过创新的归纳矩匹配方法，显著提高了生成图像的质量和多样性。其主要优点包括高效性、灵活性以及对复杂数据分布的强大建模能力。IMM 由 Luma AI 和斯坦福大学的研究团队开发，旨在推动生成模型领域的发展，为图像生成、数据增强和创意设计等应用提供强大的技术支持。该项目开源了代码和预训练模型，方便研究人员和开发者快速上手和应用。

In-Context LoRA for Diffusion Transformers

In-Context LoRA是一种用于扩散变换器（DiTs）的微调技术，它通过结合图像而非仅仅文本，实现了在保持任务无关性的同时，对特定任务进行微调。这种技术的主要优点是能够在小数据集上进行有效的微调，而不需要对原始DiT模型进行任何修改，只需改变训练数据即可。In-Context LoRA通过联合描述多张图像并应用任务特定的LoRA微调，生成高保真度的图像集合，更好地符合提示要求。该技术对于图像生成领域具有重要意义，因为它提供了一种强大的工具，可以在不牺牲任务无关性的前提下，为特定任务生成高质量的图像。

暂无评论

您必须登录才能参与评论！

none

暂无评论...