热门

Ruyi-Mini-7B

1年前发布 18 00

Ruyi-Mini-7B是由CreateAI团队开发的开源图像到视频生成模型，具有约71亿参数，能够从输入图像生成360p到720p分辨率的视频帧，最长5秒。模型支持不同宽高比，并增强了运动和相机控制功能，提供更大的灵活性和创造力。该模型在Apache 2.0许可下发布，意味着用户可以自由使用和修改。

收录时间：

2025-05-29

打开网站手机查看

图像生成 # 人工智能 # 图像到视频 # 开源 # 机器学习 # 视频生成

Ruyi-Mini-7B

Ruyi-Mini-7B

Ruyi-Mini-7B是由CreateAI团队开发的开源图像到视频生成模型，具有约71亿参数，能够从输入图像生成360p到720p分辨率的视频帧，最长5秒。模型支持不同宽高比，并增强了运动和相机控制功能，提供更大的灵活性和创造力。该模型在Apache 2.0许可下发布，意味着用户可以自由使用和修改。

数据统计

相关导航

FitDiT

FitDiT 旨在解决图像基础虚拟试衣中高保真度和鲁棒性不足的问题，通过引入服装纹理提取器和频域学习，以及采用扩张松弛掩码策略，显著提升了虚拟试衣的贴合度和细节表现，其主要优点是能够生成逼真且细节丰富的服装图像，适用于多种场景，具有较高的实用价值和竞争力，目前尚未明确具体价格和市场定位。

Historical Document Repair

HDR是一个专注于修复受损历史文档的新技术，旨在预测受损历史文档的原始外观。这项技术通过创建大规模数据集HDR28K和基于扩散的网络DiffHDR，能够处理包括字符缺失、纸张损坏和墨水侵蚀等多种损害。HDR的主要优点在于其能够精确捕捉字符内容和风格，并与修复区域内的背景协调一致。该技术不仅能够修复受损文档，还能扩展到文档编辑和文本块生成，展现出高灵活性和泛化能力。HDR对于传承无价文化和文明具有重要意义。

造点 AI编辑

夸克・造点 AI 是一个利用先进的 AI 技术生成图像和视频的平台，用户可以通过简单的输入生成视觉内容。它的主要优点是快速高效，适用于设计师、艺术家和内容创作者。该产品为用户提供灵活的创作工具，帮助他们在短时间内实现创意构思，定价模式灵活，为用户提供了更多选择。

face_anon_simple

face_anon_simple是一个人脸匿名化技术，旨在通过先进的算法在保护个人隐私的同时保留原始照片中的面部表情、头部姿势、眼神方向和背景元素。这项技术对于需要发布包含人脸的图片但又希望保护个人隐私的场合非常有用，比如在新闻报道、社交媒体和安全监控等领域。产品基于开源代码，允许用户自行部署和使用，具有很高的灵活性和应用价值。

MangaNinja

MangaNinja 是一种参考引导的线稿上色方法，它通过独特的设计确保精确的人物细节转录，包括用于促进参考彩色图像和目标线稿之间对应学习的块洗牌模块，以及用于实现细粒度颜色匹配的点驱动控制方案。该模型在自收集的基准测试中表现出色，超越了当前解决方案的精确上色能力。此外，其交互式点控制在处理复杂情况（如极端姿势和阴影）、跨角色上色、多参考协调等方面展现出巨大潜力，这些是现有算法难以实现的。MangaNinja 由来自香港大学、香港科技大学、通义实验室和蚂蚁集团的研究人员共同开发，相关论文已发表在 arXiv 上，代码也已开源。

OmniParser-v2.0

OmniParser 是微软开发的一种先进的图像解析技术，旨在将不规则的屏幕截图转换为结构化的元素列表，包括可交互区域的位置和图标的功能描述。它通过深度学习模型，如 YOLOv8 和 Florence-2，实现了对 UI 界面的高效解析。该技术的主要优点在于其高效性、准确性和广泛的适用性。OmniParser 可以显著提高基于大型语言模型（LLM）的 UI 代理的性能，使其能够更好地理解和操作各种用户界面。它在多种应用场景中表现出色，如自动化测试、智能助手开发等。OmniParser 的开源特性和灵活的许可证使其成为开发者和研究人员的有力工具。

StarVector

StarVector 是一个先进的生成模型，旨在将图像和文本指令转化为高质量的可缩放矢量图形（SVG）代码。其主要优点在于能够处理复杂的 SVG 元素，并在各种图形风格和复杂性上表现出色。作为开放源代码资源，StarVector 推动了图形设计的创新和效率，适用于设计、插图和技术文档等多种应用场景。

DiffSensei

DiffSensei是一个结合了多模态大型语言模型（LLMs）和扩散模型的定制化漫画生成模型。它能够根据用户提供的文本提示和角色图像，生成可控制的黑白漫画面板，并具有灵活的角色适应性。这项技术的重要性在于它将自然语言处理与图像生成相结合，为漫画创作和个性化内容生成提供了新的可能性。DiffSensei模型以其高质量的图像生成、多样化的应用场景以及对资源的高效利用而受到关注。目前，该模型在GitHub上公开，可以免费下载使用，但具体的使用可能需要一定的计算资源。

暂无评论

您必须登录才能参与评论！

none

暂无评论...