热门

OmniGen2

8个月前发布 30 00

OmniGen2 是一个高效的多模态生成模型，结合了视觉语言模型和扩散模型，能够实现视觉理解、图像生成及编辑等功能。其开源特性为研究人员和开发者提供了强大的基础，助力个性化和可控生成 AI 的探索。

收录时间：

2025-08-31

打开网站手机查看

图像生成 # 人工智能 # 图像生成 # 图像编辑 # 多模态 # 开源

OmniGen2

OmniGen2

OmniGen2 是一个高效的多模态生成模型，结合了视觉语言模型和扩散模型，能够实现视觉理解、图像生成及编辑等功能。其开源特性为研究人员和开发者提供了强大的基础，助力个性化和可控生成 AI 的探索。

数据统计

相关导航

WHAM

WHAM（World and Human Action Model）是由微软研究院开发的一种生成式模型，专门用于生成游戏场景和玩家行为。该模型基于Ninja Theory的《Bleeding Edge》游戏数据训练，能够生成连贯、多样化的游戏视觉和控制器动作。WHAM 的主要优点在于其能够捕捉游戏环境的3D结构和玩家行为的时间序列，为游戏设计和创意探索提供了强大的工具。该模型主要面向学术研究和游戏开发领域，帮助开发者快速迭代游戏设计。

Ruyi-Mini-7B

Ruyi-Mini-7B是由CreateAI团队开发的开源图像到视频生成模型，具有约71亿参数，能够从输入图像生成360p到720p分辨率的视频帧，最长5秒。模型支持不同宽高比，并增强了运动和相机控制功能，提供更大的灵活性和创造力。该模型在Apache 2.0许可下发布，意味着用户可以自由使用和修改。

Kissgen AI

KissGen AI是一款利用先进的人工智能技术生成个性化接吻视频的领先工具。其能将照片转化为逼真的接吻视频，为用户创造难忘的浪漫瞬间。

Nanobanana.co

Nano Banana是由Google的Gemini Flash Image技术提供支持的先进AI图像编辑工具，通过智能多模态图像转换重新定义创意可能性，快速、高质量地实现图像编辑。

BharatDiffusion

BharatDiffusion是一个基于AI的图像生成模型，专门针对印度的多样化景观、文化和遗产进行微调，能够生成反映印度丰富文化和特色的高质量图像。该模型使用Stable Diffusion技术处理所有图像生成，确保内容与印度的多样性和活力相呼应。

DiffSensei

DiffSensei是一个结合了多模态大型语言模型（LLMs）和扩散模型的定制化漫画生成模型。它能够根据用户提供的文本提示和角色图像，生成可控制的黑白漫画面板，并具有灵活的角色适应性。这项技术的重要性在于它将自然语言处理与图像生成相结合，为漫画创作和个性化内容生成提供了新的可能性。DiffSensei模型以其高质量的图像生成、多样化的应用场景以及对资源的高效利用而受到关注。目前，该模型在GitHub上公开，可以免费下载使用，但具体的使用可能需要一定的计算资源。

Polarr Next AI Color Match

Polarr Next AI Color Match 是一款基于人工智能技术的在线色彩匹配工具，能够快速从任何图片中提取色彩风格，并将其应用到用户自己的照片上。该技术利用先进的AI算法，精准识别和匹配色彩，为用户提供高效、便捷的图像编辑体验。它不仅简化了复杂的色彩调整过程，还让用户能够轻松复制和应用各种图像的色彩风格，无论是专业摄影师还是普通爱好者，都能通过这款工具提升图像的视觉效果。产品目前主要通过网站提供服务，用户可以免费试用其基本功能，而更高级的功能可能需要付费解锁。其定位是为用户提供一种简单易用且高效的色彩匹配解决方案，满足不同场景下的图像编辑需求。

Canva文本转图像

这是一种全新的技术，它能够根据您所描述的内容生成任何您需要的图像。

暂无评论

您必须登录才能参与评论！

none

暂无评论...