生成模型

共 12 篇网址

排序

发布更新浏览点赞

SV4D

Stable Video 4D (SV4D) 是基于 Stable Video Diffusion (SVD) 和 Stable Video 3D (SV3D) 的生成模型，它接受单一视角的视频并生成该对象的多个新视角视频（4D 图像矩阵）。该模型训练生成 40 帧（5 个视频帧 x 8 个摄像机视角）在 576x576 分辨率下，给定 5 个相同大小的参考帧。通过运行 SV3D 生成轨道视频，然后使用轨道视频作为 SV4D 的参考视图，并输入视频作为参考帧，进行 4D 采样。该模型还通过使用生成的第一帧作为锚点，然后密集采样（插值）剩余帧来生成更长的新视角视频。

0300

艺术创作 # 多视角视频 # 教育工具。# 生成模型

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium是一个基于文本到图像的生成模型，由Stability AI开发，具有改进的图像质量、排版、复杂提示理解和资源效率。该模型使用了三个固定的预训练文本编码器，通过QK-规范化提高训练稳定性，并在前12个变换层中引入双注意力块。它在多分辨率图像生成、一致性和各种文本到图像任务的适应性方面表现出色。

0260

文案写作 # AI艺术 # 图像生成 # 多模态

Musenet (OpenAI)

Musenet (OpenAI)是一个基于深度神经网络的生成模型，可生成长度为4分钟，包含10种不同乐器和多种风格的音乐作品。该模型使用了类似于GPT-2的无监督学习方法，通过学习预测数十万个MIDI文件中的下一个标记，从而发现了和声、节奏和风格的模式。

0230

AI音频与视频 # MuseNet # OpenAI # 生成模型

IMM

Inductive Moment Matching (IMM) 是一种先进的生成模型技术，主要用于高质量图像生成。该技术通过创新的归纳矩匹配方法，显著提高了生成图像的质量和多样性。其主要优点包括高效性、灵活性以及对复杂数据分布的强大建模能力。IMM 由 Luma AI 和斯坦福大学的研究团队开发，旨在推动生成模型领域的发展，为图像生成、数据增强和创意设计等应用提供强大的技术支持。该项目开源了代码和预训练模型，方便研究人员和开发者快速上手和应用。

0210

图像生成 # 人工智能 # 图像生成 # 开源

StemGen

StemGen是一款端到端音乐生成模型，训练成能够聆听音乐背景并做出适当回应的模型。它建立在非自回归语言模型类型的架构上，类似于SoundStorm和VampNet。更多细节请参阅论文。该页面展示了该架构模型的多个示例输出。

0200

音乐创作 # 模型训练 # 生成模型 # 音乐

PCM

Phased Consistency Model（PCM）是一种新型的生成模型，旨在解决Latent Consistency Model（LCM）在文本条件高分辨率生成中的局限性。PCM通过创新的策略在训练和推理阶段提高了生成质量，并通过广泛的实验验证了其在不同步骤（1步、2步、4步、8步、16步）下与Stable Diffusion和Stable Diffusion XL基础模型的结合效果。

0190

视频生成 # 图像生成 # 文本条件生成 # 生成模型

Stable Video Diffusion 1.1 Image-to-Video

Stable Video Diffusion (SVD) 1.1 Image-to-Video 是一个扩散模型，通过将静止图像作为条件帧，生成相应的视频。该模型是一个潜在扩散模型，经过训练，能够从图像生成短视频片段。在分辨率为 1024x576 的情况下，该模型训练生成 25 帧视频，其训练基于相同大小的上下文帧，并从 SVD Image-to-Video [25 frames] 进行了微调。微调时，固定了6FPS和Motion Bucket Id 127的条件，以提高输出的一致性，而无需调整超参数。

0190

艺术创作 # 图像到视频 # 教育 # 潜在扩散模型

EasyControl

EasyControl 是一个为 Diffusion Transformer（扩散变换器）提供高效灵活控制的框架，旨在解决当前 DiT 生态系统中存在的效率瓶颈和模型适应性不足等问题。其主要优点包括：支持多种条件组合、提高生成灵活性和推理效率。该产品是基于最新研究成果开发的，适合在图像生成、风格转换等领域使用。

0180

图像生成 # Diffusion Transformer # 图像生成 # 深度学习

PixelCNN

PixelCNN++是一种基于PixelCNN的生成模型，具有可计算的似然函数和易于采样的特点，适用于图像生成和数据增强等应用场景。

0160

图像AI 图像生成器 # 图像生成 # 生成模型

SRM

SRM是一种基于去噪生成模型的空间推理框架，用于处理连续变量集合的推理任务。它通过为每个未观测变量分配独立的噪声水平，逐步推断出这些变量的连续表示。该技术在处理复杂分布时表现出色，能够有效减少生成过程中的幻觉现象。SRM首次证明了去噪网络可以预测生成顺序，从而显著提高了特定推理任务的准确性。该模型由德国马普信息研究所开发，旨在推动空间推理和生成模型的研究。

0140

生产力 # 去噪模型 # 复杂分布 # 生成模型

MaskVAT

MaskVAT是一种视频到音频(V2A)生成模型，它利用视频的视觉特征来生成与场景匹配的逼真声音。该模型特别强调声音的起始点与视觉动作的同步性，以避免不自然的同步问题。MaskVAT结合了全频带高质量通用音频编解码器和序列到序列的遮蔽生成模型，能够在保证高音频质量、语义匹配和时间同步性的同时，达到与非编解码器生成音频模型相媲美的竞争力。

0130

音频处理 # 同步性 # 生成模型 # 视频到音频

InstantIR

InstantIR是一种基于扩散模型的盲图像恢复方法，能够在测试时处理未知退化问题，提高模型的泛化能力。该技术通过动态调整生成条件，在推理过程中生成参考图像，从而提供稳健的生成条件。InstantIR的主要优点包括：能够恢复极端退化的图像细节，提供逼真的纹理，并且通过文本描述调节生成参考，实现创造性的图像恢复。该技术由北京大学、InstantX团队和香港中文大学的研究人员共同开发，得到了HuggingFace和fal.ai的赞助支持。

0130

图像生成 # 图像增强 # 图像恢复 # 扩散模型