kokoro-onnxkokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音(TTS)项目。它支持英语,并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能,并提供多种声音选择,包括耳语。模型轻量级,约为300MB(量化后约为80MB)。该项目在GitHub上开源,采用MIT许可证,方便开发者集成和使用。
TranscribroTranscribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用,它使用whisper.cpp来运行OpenAI Whisper系列模型,并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘,允许用户通过语音进行文字输入,并且可以被其他应用显式使用,或者设置为用户选择的语音转文字应用,部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案,避免了云端处理可能带来的隐私泄露问题。该应用是开源的,用户可以自由地查看、修改和分发代码。
Sesame CSMCSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。
Bailing-TTSBailing-TTS是由Giant Network的AI Lab开发的大型文本到语音(TTS)模型系列,专注于生成高质量的中文方言语音。该模型采用持续的半监督学习和特定的Transformer架构,通过多阶段训练过程,有效对齐文本和语音标记,实现中文方言的高质量语音合成。Bailing-TTS在实验中展现出接近人类自然表达的语音合成效果,对于方言语音合成领域具有重要意义。
AI-Faceless-Video-GeneratorAI-Faceless-Video-Generator是一个利用人工智能技术,根据话题生成视频脚本、语音和会说话头像的项目。它结合了sadtalker进行面部动画,gTTS生成AI语音和OpenAI语言模型生成脚本,提供了一个端到端的解决方案,用于生成个性化视频。该项目的主要优点包括脚本生成、AI语音生成、面部动画创建以及易于使用的界面。
VALL-E 2VALL-E 2 是微软亚洲研究院推出的一款语音合成模型,它通过重复感知采样和分组编码建模技术,大幅提升了语音合成的稳健性与自然度。该模型能够将书面文字转化为自然语音,适用于教育、娱乐、多语言交流等多个领域,为提高无障碍性、增强跨语言交流等方面发挥重要作用。
Chirp AIChirp AI 是一款专为 Apple Watch 设计的智能语音助手应用。它通过强大的语音识别和人工智能技术,让用户能够仅通过语音指令完成各种操作,如发送信息、获取信息、搜索网络等,极大地提升了用户在移动场景下的操作效率。该产品的主要优点是无需频繁使用手机,即可实现高效的信息交互和任务处理。它适用于那些希望在日常生活中减少对手机依赖,同时又能快速获取信息和完成任务的用户。目前该应用提供免费下载,定位为提升用户生产力和便捷性的智能工具。
Speech to NoteSpeech to Note是一个AI驱动的语音识别工具,能够即时将口语转换为文本。它使用先进的语音转文本技术,将您的语音转换成可以编辑或分享的简洁摘要。该产品由GPT-4技术支持,旨在提升生产力并释放创造力。