OpenjourneyOpenjourney 是一个高保真的开源项目,旨在模拟 MidJourney 的界面,利用 Google 的 Gemini SDK 进行 AI 图像和视频生成。该项目支持使用 Imagen 4 生成高质量图像,以及使用 Veo 2 和 Veo 3 进行文本到视频和图像到视频的转换。它适合需要进行图像生成和视频制作的开发者和创作者,提供了用户友好的界面和实时生成体验,能够助力创意工作与项目开发。
腾讯混元图像 2.0腾讯混元图像 2.0 是腾讯最新发布的 AI 图像生成模型,显著提升了生成速度和画质。通过超高压缩倍率的编解码器和全新扩散架构,使得图像生成速度可达到毫秒级,避免了传统生成的等待时间。同时,模型通过强化学习算法与人类美学知识的结合,提升了图像的真实感和细节表现,适合设计师、创作者等专业用户使用。
ColorFlowColorFlow是一个为图像序列着色而设计的模型,特别注重在着色过程中保留角色和对象的身份信息。该模型利用上下文信息,能够根据参考图像池为黑白图像序列中的不同元素(如角色的头发和服装)准确生成颜色,并确保与参考图像的颜色一致性。ColorFlow通过三个阶段的扩散模型框架,提出了一种新颖的检索增强着色流程,无需每个身份的微调或显式身份嵌入提取,即可实现具有相关颜色参考的图像着色。ColorFlow的主要优点包括其在保留身份信息的同时,还能提供高质量的着色效果,这对于卡通或漫画系列的着色具有重要的市场价值。
Procyon AI Image Generation BenchmarkProcyon AI Image Generation Benchmark 是一款由 UL Solutions 开发的基准测试工具,旨在为专业用户提供一个一致、准确且易于理解的工作负载,用以测量设备上 AI 加速器的推理性能。该基准测试与多个关键行业成员合作开发,确保在所有支持的硬件上产生公平且可比较的结果。它包括三个测试,可测量从低功耗 NPU 到高端独立显卡的性能。用户可以通过 Procyon 应用程序或命令行进行配置和运行,支持 NVIDIA® TensorRT™、Intel® OpenVINO™ 和 ONNX with DirectML 等多种推理引擎。产品主要面向工程团队,适用于评估推理引擎实现和专用硬件的通用 AI 性能。价格方面,提供免费试用,正式版为年度场地许可,需付费获取报价。
CAP4DCAP4D是一种利用可变形多视图扩散模型(Morphable Multi-View Diffusion Models)来创建4D人像化身的技术。它能够从任意数量的参考图像生成不同视角和表情的图像,并将其适配到一个4D化身上,该化身可以通过3DMM控制并实时渲染。这项技术的主要优点包括高度逼真的图像生成、多视角的适应性以及实时渲染的能力。CAP4D的技术背景是基于深度学习和图像生成领域的最新进展,尤其是在扩散模型和3D面部建模方面。由于其高质量的图像生成和实时渲染能力,CAP4D在娱乐、游戏开发、虚拟现实等领域具有广泛的应用前景。目前,该技术是免费提供代码的,但具体的商业化应用可能需要进一步的授权和定价。
Ruyi-ModelsRuyi-Models是一个图像到视频的模型,能够生成高达768分辨率、每秒24帧的电影级视频,支持镜头控制和运动幅度控制。使用RTX 3090或RTX 4090显卡,可以无损生成512分辨率、120帧的视频。该模型以其高质量的视频生成能力和对细节的精确控制而受到关注,尤其在需要生成高质量视频内容的领域,如电影制作、游戏制作和虚拟现实体验中具有重要应用价值。
KLINGAIKLINGAI是一个由Kling大模型和Kolors大模型驱动的下一代AI创意工作室,受到全球创作者的高度评价。它支持视频和图像的生成与编辑,用户可以在这里释放想象力,或从其他创作者的作品中获取灵感,将想法变为现实。该应用在App Store中属于图形与设计类别,排名123,拥有3.9的用户评分。它适用于iPad,提供免费下载,但包含应用内购买项目。