热门

SoundStorm

11个月前发布 15 00

SoundStorm是由Google Research开发的一种音频生成技术，它通过并行生成音频令牌来大幅减少音频合成的时间。这项技术能够生成高质量、与语音和声学条件一致性高的音频，并且可以与文本到语义模型结合，控制说话内容、说话者声音和说话轮次，实现长文本的语音合成和自然对话的生成。SoundStorm的重要性在于它解决了传统自回归音频...

收录时间：

2025-06-02

打开网站手机查看

音乐创作 # 并行处理 # 神经音频编解码 # 语音合成 # 音乐生成 # 音频生成

SoundStorm

SoundStorm

SoundStorm是由Google Research开发的一种音频生成技术，它通过并行生成音频令牌来大幅减少音频合成的时间。这项技术能够生成高质量、与语音和声学条件一致性高的音频，并且可以与文本到语义模型结合，控制说话内容、说话者声音和说话轮次，实现长文本的语音合成和自然对话的生成。SoundStorm的重要性在于它解决了传统自回归音频生成模型在处理长序列时推理速度慢的问题，提高了音频生成的效率和质量。

数据统计

相关导航

musicgen-songstarter-v0.2

musicgen-songstarter-v0.2是一个针对音乐制作人设计的音频生成模型，专门用于生成有用的旋律循环。该模型在Splice样本库中的旋律循环数据集上进行了微调，能够生成立体声音频，音频频率为32kHz。与v0.1版本相比，v0.2版本使用了三倍的独特样本，并且模型大小从中等提升到了大型。

DogMusic AI

DogMusic AI是一款利用先进AI技术为宠物狗定制放松音乐的工具。它通过分析狗狗的喜好，快速生成个性化的音乐，帮助狗狗保持平静和快乐。产品背景信息显示，有185名用户正在使用DogMusic AI，且目前所有计划对前60名顾客提供40%的折扣。

Stable Audio ControlNet

Stable Audio ControlNet 是一个基于 Stable Audio Open 的音乐生成模型，通过 DiT ControlNet 进行微调，能够在具有 16GB VRAM 的 GPU 上使用，支持音频控制。此模型仍在开发中，但已经能够实现音乐的生成和控制，具有重要的技术意义和应用前景。

JASCO

JASCO是一个结合了符号和基于音频的条件的文本到音乐生成模型，它能够根据全局文本描述和细粒度的局部控制生成高质量的音乐样本。JASCO基于流匹配建模范式和一种新颖的条件方法，允许音乐生成同时受到局部（例如和弦）和全局（文本描述）的控制。通过信息瓶颈层和时间模糊来提取与特定控制相关的信息，允许在同一个文本到音乐模型中结合符号和基于音频的条件。

免费AI歌曲生成器

免费AI歌曲生成器是一个在线工具，使用人工智能技术根据用户输入创作个性化歌曲。它结合旋律、和声和节奏，创造完整的歌曲。产品背景信息显示，该工具受到全球超过25,000名音乐家、内容创作者和音乐爱好者的信任。它提供免费、无需订阅的音乐创作服务，支持多种音乐风格，并允许用户商业使用生成的歌曲。

StemGen

StemGen是一款端到端音乐生成模型，训练成能够聆听音乐背景并做出适当回应的模型。它建立在非自回归语言模型类型的架构上，类似于SoundStorm和VampNet。更多细节请参阅论文。该页面展示了该架构模型的多个示例输出。

YuE-s1-7B-anneal-en-cot

YuE是一个开创性的开源基础模型系列，专为音乐生成设计，能够将歌词转化为完整的歌曲。它能够生成包含吸引人的主唱和配套伴奏的完整歌曲，支持多种音乐风格。该模型基于深度学习技术，具有强大的生成能力和灵活性，能够为音乐创作者提供强大的工具支持。其开源特性也使得研究人员和开发者可以在此基础上进行进一步的研究和开发。

AudioLM

AudioLM是由Google Research开发的一个框架，用于高质量音频生成，具有长期一致性。它将输入音频映射到离散标记序列，并将音频生成视为这一表示空间中的语言建模任务。AudioLM通过在大量原始音频波形上训练，学习生成自然且连贯的音频续篇，即使在没有文本或注释的情况下，也能生成语法和语义上合理的语音续篇，同时保持说话者的身份和韵律。此外，AudioLM还能生成连贯的钢琴音乐续篇，尽管它在训练时没有使用任何音乐的符号表示。

暂无评论

您必须登录才能参与评论！

none

暂无评论...