Moonshine WebMoonshine Web是一个基于React和Vite构建的简单应用,它运行了Moonshine Base,这是一个针对快速准确自动语音识别(ASR)优化的强大语音识别模型,适用于资源受限的设备。该应用在浏览器端本地运行,使用Transformers.js和WebGPU加速(或WASM作为备选)。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案,这对于需要快速处理语音数据的应用场景尤为重要。
FireRedASR-AED-LFireRedASR-AED-L 是一个开源的工业级自动语音识别模型,专为满足高效率和高性能的语音识别需求而设计。该模型采用基于注意力的编码器-解码器架构,支持普通话、中文方言和英语等多种语言。它在公共普通话语音识别基准测试中达到了新的最高水平,并且在歌唱歌词识别方面表现出色。该模型的主要优点包括高性能、低延迟和广泛的适用性,适用于各种语音交互场景。其开源特性使得开发者可以自由地使用和修改代码,进一步推动语音识别技术的发展。
Fish Audio文本转语音文本转语音技术是一种将文本信息转换为语音的技术,广泛应用于辅助阅读、语音助手、有声读物制作等领域。它通过模拟人类语音,提高了信息获取的便捷性,尤其对视力障碍者或在无法使用眼睛阅读的情况下非常有帮助。
Fish Speech V1.2Fish Speech V1.2是一款基于300,000小时的英语、中文和日语音频数据训练而成的文本到语音(TTS)模型。该模型代表了语音合成技术的最新进展,能够提供高质量的语音输出,适用于多种语言环境。
TranscribroTranscribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用,它使用whisper.cpp来运行OpenAI Whisper系列模型,并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘,允许用户通过语音进行文字输入,并且可以被其他应用显式使用,或者设置为用户选择的语音转文字应用,部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案,避免了云端处理可能带来的隐私泄露问题。该应用是开源的,用户可以自由地查看、修改和分发代码。
AI-Faceless-Video-GeneratorAI-Faceless-Video-Generator是一个利用人工智能技术,根据话题生成视频脚本、语音和会说话头像的项目。它结合了sadtalker进行面部动画,gTTS生成AI语音和OpenAI语言模型生成脚本,提供了一个端到端的解决方案,用于生成个性化视频。该项目的主要优点包括脚本生成、AI语音生成、面部动画创建以及易于使用的界面。
Bailing-TTSBailing-TTS是由Giant Network的AI Lab开发的大型文本到语音(TTS)模型系列,专注于生成高质量的中文方言语音。该模型采用持续的半监督学习和特定的Transformer架构,通过多阶段训练过程,有效对齐文本和语音标记,实现中文方言的高质量语音合成。Bailing-TTS在实验中展现出接近人类自然表达的语音合成效果,对于方言语音合成领域具有重要意义。