kokoro-onnxkokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音(TTS)项目。它支持英语,并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能,并提供多种声音选择,包括耳语。模型轻量级,约为300MB(量化后约为80MB)。该项目在GitHub上开源,采用MIT许可证,方便开发者集成和使用。
Sesame CSMCSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。
RelyableRelyable 是一个自动化 AI 代理测试与监控工具,通过模拟和智能分析,帮助用户评估、优化和监控 AI 语音代理的表现。它能够帮助用户快速部署生产就绪的 AI 代理,提高工作效率。
BetterWhisperXBetterWhisperX是一个基于WhisperX改进的自动语音识别模型,它能够提供快速的语音转文字服务,并具备词级时间戳和说话人识别功能。这个工具对于需要处理大量音频数据的研究人员和开发者来说非常重要,因为它可以大幅提高语音数据处理的效率和准确性。产品背景基于OpenAI的Whisper模型,但做了进一步的优化和改进。目前,该项目是免费且开源的,定位于为开发者社区提供更高效、更准确的语音识别工具。
Fish Speech V1.2Fish Speech V1.2是一款基于300,000小时的英语、中文和日语音频数据训练而成的文本到语音(TTS)模型。该模型代表了语音合成技术的最新进展,能够提供高质量的语音输出,适用于多种语言环境。
SpeechGPT 2.0-previewSpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练,实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达,同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互,未来计划扩展到更多语言。