Bailing-TTS
Bailing-TTS是由Giant Network的AI Lab开发的大型文本到语音(TTS)模型系列,专注于生成高质量的中文方言语音。该模型采用持续的半监督学习和特定的Transformer架构,通过多阶段训练过程,有效对齐文本和语音标记,实现中文方言的高质量语音合成。Bailing-TTS在实验中展现出接近人类自然表达的语音合成效果,对于方言语音合成领域具有重要意义。
VALL-E 2 是微软亚洲研究院推出的一款语音合成模型,它通过重复感知采样和分组编码建模技术,大幅提升了语音合成的稳健性与自然度。该模型能够将书面文字转化为自然语音,适用于教育、娱乐、多语言交流等多个领域,为提高无障碍性、增强跨语言交流等方面发挥重要作用。