MangaNinja

11个月前发布 28 00

MangaNinja 是一种参考引导的线稿上色方法,它通过独特的设计确保精确的人物细节转录,包括用于促进参考彩色图像和目标线稿之间对应学习的块洗牌模块,以及用于实现细粒度颜色匹配的点驱动控制方案。该模型在自收集的基准测试中表现出色,超越了当前解决方案的精确上色能力。此外,其交互式点控制在处理复杂情况(如极端姿势和阴影)、跨角色上色、多参考...

收录时间:
2025-05-29
MangaNinjaMangaNinja

MangaNinja 是一种参考引导的线稿上色方法,它通过独特的设计确保精确的人物细节转录,包括用于促进参考彩色图像和目标线稿之间对应学习的块洗牌模块,以及用于实现细粒度颜色匹配的点驱动控制方案。该模型在自收集的基准测试中表现出色,超越了当前解决方案的精确上色能力。此外,其交互式点控制在处理复杂情况(如极端姿势和阴影)、跨角色上色、多参考协调等方面展现出巨大潜力,这些是现有算法难以实现的。MangaNinja 由来自香港大学、香港科技大学、通义实验室和蚂蚁集团的研究人员共同开发,相关论文已发表在 arXiv 上,代码也已开源。

数据统计

相关导航

Genime AI

Genime AI

Genime AI 是一个面向动画创作者的工具平台,通过先进的 AI 技术,为用户提供图像到 3D 模型转换、补间动画生成等功能。其主要优点是能够帮助用户快速生成高质量的动画内容,降低动画制作门槛,提高创作效率。该产品适合动画设计师、视频创作者以及相关领域的专业人士,尤其适合那些希望借助 AI 技术提升创作能力的用户。目前产品处于发展阶段,具体价格和定位尚未明确。
F Lite

F Lite

F Lite 是由 Freepik 和 Fal 开发的一个大型扩散模型,具有 100 亿个参数,专门训练于版权安全和适合工作环境 (SFW) 的内容。该模型基于 Freepik 的内部数据集,包含约 8000 万张合法合规的图像,标志着公开可用的模型在这一规模上首次专注于合法和安全的内容。它的技术报告提供了详细的模型信息,并且使用了 CreativeML Open RAIL-M 许可证进行分发。该模型的设计旨在推动人工智能的开放性和可用性。
InternVL3

InternVL3

InternVL3是由OpenGVLab开源发布的多模态大型语言模型(MLLM),具备卓越的多模态感知和推理能力。该模型系列包含从1B到78B共7个尺寸,能够同时处理文字、图片、视频等多种信息,展现出卓越的整体性能。InternVL3在工业图像分析、3D视觉感知等领域表现出色,其整体文本性能甚至优于Qwen2.5系列。该模型的开源为多模态应用开发提供了强大的支持,有助于推动多模态技术在更多领域的应用。
Qwen2vl-Flux

Qwen2vl-Flux

Qwen2vl-Flux是一个结合了Qwen2VL视觉语言理解能力的FLUX框架的先进多模态图像生成模型。该模型擅长基于文本提示和视觉参考生成高质量图像,提供卓越的多模态理解和控制。产品背景信息显示,Qwen2vl-Flux集成了Qwen2VL的视觉语言能力,增强了FLUX的图像生成精度和上下文感知能力。其主要优点包括增强的视觉语言理解、多种生成模式、结构控制、灵活的注意力机制和高分辨率输出。
InstantCharacter

InstantCharacter

InstantCharacter 是一个基于扩散变换器的角色个性化框架,旨在克服现有学习基础自定义方法的局限性。该框架的主要优点在于开放域个性化、高保真结果以及有效的角色特征处理能力,适合各种角色外观、姿势和风格的生成。该框架利用一个包含千万级样本的大规模数据集进行训练,以实现角色一致性和文本可编辑性的同时优化。该技术为角色驱动的图像生成设定了新的基准。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...