voice-chat-pdfvoice-chat-pdf是一个基于LlamaIndex项目,使用Next.js构建的示例,它通过简单的RAG系统,允许用户通过语音与PDF文档进行交互。这个项目需要OpenAI API密钥来访问实时API,并在项目中生成文档的嵌入向量,以便进行语音交互。它展示了如何将先进的机器学习技术应用于提高文档交互的效率和便捷性。0250语音处理# LlamaIndex# OpenAI# 文档处理
Omi AIOMI APP是一个任务驱动的个性化AI助手,旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本,提供提醒、建议等功能,同时注重用户隐私。0240语音处理# AI助手# 开源# 语音转录
VoiSparkVoiSpark是一个AI语音生成平台,能生成逼真的文本转语音,克隆声音,并为视频、播客等定制独特AI声音。该平台具有100%免费试用。0230语音处理# AI# 声音克隆# 多语言支持
Whisper Turbo.onlineWhisper Turbo 是基于 Whisper Large-v3 模型优化的语音识别工具,专为快速语音转录而设计。它利用先进的 AI 技术,能够高效地将不同音频源的语音转换为文本,支持多种语言和口音。该工具免费提供给用户,旨在帮助人们节省时间和精力,提高工作效率。其主要面向需要快速准确转录语音内容的用户,如博主、内容创作者、企业等,为他们提供便捷的语音转文字解决方案。0200语音处理# AI# 免费# 多语言
OmniSenseVoiceOmniSenseVoice是基于SenseVoice优化的语音识别模型,专为快速推理和精确时间戳设计,提供更智能、更快速的音频转录方式。0200语音处理# GPU加速# 多语言支持# 开源
Home Assistant VoiceHome Assistant Voice Preview Edition是一款开源、注重隐私的语音助手硬件产品,旨在提供一种开放、本地化、私人化的语音控制解决方案。它允许用户通过语音控制家中的智能设备,同时确保用户的语音数据不会离开本地网络,保护用户隐私。该产品背景是响应对隐私保护日益增长的需求,特别是在智能家居领域。价格方面,产品定价为59美元,推荐零售价,具体价格可能会因零售商而异。0190语音处理# 开源# 智能家居# 语音控制
BetterWhisperXBetterWhisperX是一个基于WhisperX改进的自动语音识别模型,它能够提供快速的语音转文字服务,并具备词级时间戳和说话人识别功能。这个工具对于需要处理大量音频数据的研究人员和开发者来说非常重要,因为它可以大幅提高语音数据处理的效率和准确性。产品背景基于OpenAI的Whisper模型,但做了进一步的优化和改进。目前,该项目是免费且开源的,定位于为开发者社区提供更高效、更准确的语音识别工具。0190语音处理# 多语言支持# 开源# 自动语音识别
Qwen2 Audio Instruct DemoQwen2 Audio Instruct Demo 是一个基于音频指令的交互式演示网站,它利用最新的人工智能技术,让用户通过语音指令与网页进行互动。这种技术不仅增强了用户体验,还为残障人士提供了更便捷的访问方式。产品背景信息包括其开发团队和技术支持,价格定位为免费试用,主要面向对人工智能交互感兴趣的用户群体。0170语音处理# 交互技术# 人工智能# 语音识别
SpeekSpeek是一款AI驱动的助手,通过语音和动画鼠标指针指导用户在网站上的操作,帮助解答问题、引导用户了解网站功能,并简化购买决策。它通过提供实时帮助,结合支持和引导,快速安装并立即开始工作,改善用户体验,提升销售,并减少客户支持查询。0170语音处理# AI助手# 动画指导# 实时帮助
EMOVAEMOVA(EMotionally Omni-present Voice Assistant)是一个多模态语言模型,它能够进行端到端的语音处理,同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器,实现了情感丰富的多模态对话,并在视觉-语言和语音基准测试中达到了最先进的性能。0160语音处理# 多模态# 情感分析# 自然语言处理
WhisperNERWhisperNER是一个结合了自动语音识别(ASR)和命名实体识别(NER)的统一模型,具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大基础模型,并可以在特定数据集上进行微调以提高性能。WhisperNER的重要性在于其能够同时处理语音识别和实体识别任务,提高了处理效率和准确性,尤其在多语言和跨领域的场景中具有显著优势。0160语音处理# 命名实体识别# 多语言支持# 开源
Mumble NoteMumble Note是一款AI语音速记工具,可以将用户的口述内容转换为清晰的笔记、待办事项和输出。该产品具有隐私保护、智能问答等功能,为用户提供高效的语音记录与管理体验。0150语音处理# 会议记录# 待办事项管理# 智能笔记
PERSO.aiPERSO.ai是一体化AI视频平台,集成了AI配音、AI工作室和AI实时聊天功能,帮助创作者、营销人员、教育者和企业快速、实惠地高质量跨语言和多格式扩展视频内容。0150语音处理# AI配音# 多语言支持# 虚拟形象
Canonical AICanonical AI提供的声音AI分析工具,专注于分析和优化语音助手的通话性能。该工具通过可视化通话流程、识别关键性能指标(KPIs)和自定义度量标准,帮助企业理解语音AI通话的失败原因,并提供实时监控和深度分析功能。产品背景信息显示,它适用于需要提升语音AI服务质量的企业和团队,价格方面提供免费试用和不同规模的专业及企业方案。0150语音处理# 实时优化# 性能监控# 用户体验
EaseVoice TrainerEaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进,注重用户体验和系统的可维护性。其设计理念不同于原始项目,旨在提供更模块化和定制化的解决方案,适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。0150语音处理# 开源# 教育# 机器学习
FlowSpeechFlowSpeech是一个免费的 AI 播客生成器,利用最新的语音合成技术将文本转换为自然人声,适合各种用户需求。它支持多种格式的输入,包括 PDF、TXT 等,方便用户快速获取信息。提供多种订阅选项,帮助创作者更高效地制作播客。0140语音处理# AI# 内容创作# 播客
CosyVoice语音生成大模型2.0-0.5BCosyVoice语音生成大模型2.0-0.5B是一个高性能的语音合成模型,支持零样本、跨语言的语音合成,能够根据文本内容直接生成相应的语音输出。该模型由通义实验室提供,具有强大的语音合成能力和广泛的应用场景,包括但不限于智能助手、有声读物、虚拟主播等。模型的重要性在于其能够提供自然、流畅的语音输出,极大地丰富了人机交互的体验。0140语音处理# 人工智能# 多语种支持# 机器学习
Dictate BuddyDictate Buddy是一款利用人工智能技术将语音转换为文字的应用程序。它支持99种语言,并且能够自动检测语言。该应用使用OpenAI Whisper模型,能够准确转录并正确使用标点符号,将口语转换成清晰、结构化的文字。它特别适合需要长时间记录的场景,如会议、头脑风暴或采访。此外,Dictate Buddy还提供了自动摘要功能,帮助用户快速捕捉关键点,而无需回顾冗长的记录。产品背景信息显示,它旨在帮助用户更高效地整理和管理语音信息,特别适合需要大量记录和整理信息的用户。0140语音处理# AI技术# Notion集成# 多语言支持
Fish Speech V1.2Fish Speech V1.2是一款基于300,000小时的英语、中文和日语音频数据训练而成的文本到语音(TTS)模型。该模型代表了语音合成技术的最新进展,能够提供高质量的语音输出,适用于多种语言环境。0140语音处理# 多语言支持# 开源# 文本到语音
Encounter AI AdvisorEncounter AI - Advisor是一款利用SRI的隐马尔可夫模型(HMM)基础的语音识别技术,为多单位餐厅运营商提供实时的音频监控服务。它通过先进的技术,精准跟踪和分析餐厅层面的每一段对话,消除了常见的“他说/她说”的主观性问题,为零售领导者提供实时对话分析,帮助他们实现目标,增加收入。0140语音处理# 实时监控# 客户服务# 语音识别
Speech to NoteSpeech to Note是一个AI驱动的语音识别工具,能够即时将口语转换为文本。它使用先进的语音转文本技术,将您的语音转换成可以编辑或分享的简洁摘要。该产品由GPT-4技术支持,旨在提升生产力并释放创造力。0140语音处理# AI# 内容创作# 生产力工具
ideaShellideaShell是一款结合人工智能技术的语音思维笔记应用,旨在帮助用户通过语音快速捕捉灵感和想法,并通过AI技术进行反思和行动规划。它通过自动组织、格式化、添加标签和标题,帮助用户将想法转化为行动,同时支持将草稿导入到其他应用程序如Notion、Craft、Docs和Reminder中进行最终创作和后续行动。0140语音处理# AI# 思维整理# 行动规划
OutspeedOutspeed是一个为构建快速、实时语音和视频AI应用提供网络和推理基础设施的平台。它由Google和MIT的工程师开发,旨在为实时AI应用提供直观且强大的工具,无论是构建下一个大型应用还是扩展现有解决方案,Outspeed都能帮助用户更快、更有信心地进行创新。0140语音处理# AI# SDK# 时事
WAKE UP MOTHAF&#$RWAKE UP MOTHAF&#$R是一个提供个性化AI语音唤醒服务的网站,模仿知名人物David Goggins的声音,帮助用户在早晨醒来。该工具由David Goggins的粉丝们创建,并非由David Goggins本人或其团队正式支持。0140语音处理# AI语音# David Goggins# 个性化
OpenWisprOpenWispr是一款由AI技术驱动的语音转文本工具,注重隐私保护,完全开源。其主要优点在于处理速度快、隐私保护严格,适用于写作、编程等领域。0130语音处理# AI# 开源# 生产力
Telezen DashboardTelezen Dashboard提供完整的白标基础设施,供代理商启动他们自己品牌的AI语音代理平台。通过提供详细的分析和客户管理,可以在您的品牌下管理客户、管理语音代理并提供全面的分析。0130语音处理# AI语音# 分析# 客户管理
ElevenLabs ScribeScribe 是由 ElevenLabs 开发的高精度语音转文字模型,旨在处理真实世界音频的不可预测性。它支持99种语言,提供单词级时间戳、说话人分离和音频事件标记等功能。Scribe 在 FLEURS 和 Common Voice 基准测试中表现卓越,超越了 Gemini 2.0 Flash、Whisper Large V3 和 Deepgram Nova-3 等领先模型。它显著降低了传统服务不足语言(如塞尔维亚语、粤语和马拉雅拉姆语)的错误率,这些语言在竞争模型中的错误率通常超过40%。Scribe 提供 API 接口供开发者集成,并将推出低延迟版本以支持实时应用。0130语音处理# API# 多语言# 实时应用
TenyxTenyx是一个AI驱动的语音代理平台,专注于提供企业级的交互式语音响应(IVR)解决方案。它通过三个技术支柱:会话AI语音代理、会话语音平台和核心AI,来实现高效、定制化的语音服务。Tenyx的核心技术TenyxChat基于领先的AI技术,采用多语言模型架构,确保安全和持续学习。该产品适用于各种行业,如消费者服务、电子商务、酒店和旅游等,旨在通过自然、类人的对话体验,提高客户服务效率和客户满意度。0130语音处理# AI# 企业解决方案# 客户服务
RivieraRiviera 是一款专为酒店行业设计的AI语音平台,旨在通过智能化的语音交互提升客户体验并优化酒店运营效率。它支持多语言对话,能够快速响应客户咨询,处理预订、房间服务等需求,同时通过数据分析提供个性化服务。该产品利用先进的AI技术,减少人工干预,降低运营成本,尤其适合酒店在高峰期减轻员工工作压力。其背景是随着酒店行业的数字化转型,客户对服务的即时性和个性化需求日益增长,Riviera 正是为满足这一需求而生。价格和具体定位需根据酒店规模和需求定制。0130语音处理# AI# 多语言支持# 客户服务
SesameSesame 是一个专注于语音技术的跨学科产品和研究团队,旨在通过自然语音交互,让用户与计算机的交互更加自然和高效。其主要产品包括个人语音伴侣和轻量级可穿戴眼镜设备,旨在实现计算机的拟人化,帮助用户更好地组织信息、提升效率。产品的主要优点是语音交互的自然性和设备的便携性,适合日常使用。目前,Sesame 正在积极招聘,致力于推动语音技术的创新。0130语音处理# 个人助手# 可穿戴设备# 生产力
OpenVoiceChatOpenVoiceChat是一个开源项目,旨在提供一个与大型语言模型(LLM)进行自然语音对话的平台。它支持多种语音识别(STT)、文本到语音(TTS)和LLM模型,允许用户通过语音与AI进行交互。项目采用Apache-2.0许可,强调开放性和易用性,目标是成为封闭商业实现的开源替代品。0130语音处理# 开源# 文本到语音# 自然语言处理
NexaVoxaNexaVoxa是一款智能AI语音代理产品,旨在优化销售流程、自动化排程和提升客户支持体验。其主要优点包括自然对话、多语言支持以及企业级可扩展性。0120语音处理# 企业级# 多语言支持# 智能AI
VALL-E 2VALL-E 2 是微软亚洲研究院推出的一款语音合成模型,它通过重复感知采样和分组编码建模技术,大幅提升了语音合成的稳健性与自然度。该模型能够将书面文字转化为自然语音,适用于教育、娱乐、多语言交流等多个领域,为提高无障碍性、增强跨语言交流等方面发挥重要作用。0120语音处理# 人工智能# 文本到语音# 自然语言处理
LSLMListening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双工建模(FDM)技术,实现了在说话时同时监听的能力,增强了实时交互性,尤其是在生成内容不满意时能够被打断和实时响应。LSLM采用了基于token的解码器仅TTS进行语音生成,以及流式自监督学习(SSL)编码器进行实时音频输入,通过三种融合策略(早期融合、中期融合和晚期融合)探索最佳交互平衡。0120语音处理# 人工智能# 人机交互# 自然语言处理
FireRedASR-AED-LFireRedASR-AED-L 是一个开源的工业级自动语音识别模型,专为满足高效率和高性能的语音识别需求而设计。该模型采用基于注意力的编码器-解码器架构,支持普通话、中文方言和英语等多种语言。它在公共普通话语音识别基准测试中达到了新的最高水平,并且在歌唱歌词识别方面表现出色。该模型的主要优点包括高性能、低延迟和广泛的适用性,适用于各种语音交互场景。其开源特性使得开发者可以自由地使用和修改代码,进一步推动语音识别技术的发展。0120语音处理# 多语言# 工业级# 开源
Moonshine WebMoonshine Web是一个基于React和Vite构建的简单应用,它运行了Moonshine Base,这是一个针对快速准确自动语音识别(ASR)优化的强大语音识别模型,适用于资源受限的设备。该应用在浏览器端本地运行,使用Transformers.js和WebGPU加速(或WASM作为备选)。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案,这对于需要快速处理语音数据的应用场景尤为重要。0120语音处理# ASR# Transformers.js# WebGPU
MiniCPM-o-2_6MiniCPM-o 2.6是MiniCPM-o系列中最新且功能最强大的模型。该模型基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,拥有8B参数。它在视觉理解、语音交互和多模态直播方面表现出色,支持实时语音对话和多模态直播功能。该模型在开源社区中表现优异,超越了多个知名模型。其优势在于高效的推理速度、低延迟、低内存和功耗,能够在iPad等终端设备上高效支持多模态直播。此外,MiniCPM-o 2.6易于使用,支持多种使用方式,包括llama.cpp的CPU推理、int4和GGUF格式的量化模型、vLLM的高吞吐量推理等。0120语音处理# 多模态# 实时直播# 视觉理解
Fish Audio文本转语音文本转语音技术是一种将文本信息转换为语音的技术,广泛应用于辅助阅读、语音助手、有声读物制作等领域。它通过模拟人类语音,提高了信息获取的便捷性,尤其对视力障碍者或在无法使用眼睛阅读的情况下非常有帮助。0120语音处理# 内容创作# 语音合成# 辅助阅读
Say It SoSay It So是一个Chrome扩展程序,允许用户在Google Docs文档中添加语音评论,使反馈、解释和协作更加清晰和个性化。这个工具特别适合需要频繁提供反馈的内容写作者和团队,可以减少打字时间,提高沟通效率,并且让评论更加具有个人特色。它完全免费,无需信用卡信息即可开始使用。0120语音处理# Google Docs# 内容管理# 反馈工具
LlamaVoiceLlamaVoice是一个基于羊驼模型的大型语音生成模型,它通过直接预测连续特征,提供了一种与传统依赖于离散语音码预测的向量量化模型相比更为流畅和高效的处理过程。该模型具有连续特征预测、变分自编码器(VAE)潜在特征预测、联合训练、先进采样策略和基于流的增强等关键特点。0110语音处理# 变分自编码器# 机器学习# 流模型
Sesame CSMCSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。0110语音处理# 交互式语音# 人工智能# 开源
EchoEcho是一款结合了人工智能技术的语音和文本笔记应用,它通过AI技术帮助用户组织和提炼思考。Echo利用GPT-4o大型语言模型进行转录、回忆和洞察力生成,能够准确转录用户的语音输入,并根据用户过去的想法提供有意义的答案,使日记体验更具互动性和吸引力。该产品注重隐私和安全性,笔记加密,不查看用户数据,也不使用数据训练AI,遵循行业最佳实践进行数据保护。目前Echo处于免费测试阶段,未来计划引入高级功能。0110语音处理# AI笔记# 免费应用# 智能组织
LlasaLlasa是一个基于Llama框架的文本到语音(TTS)基础模型,专为大规模语音合成任务设计。该模型利用16万小时的标记化语音数据进行训练,具备高效的语言生成能力和多语言支持。其主要优点包括强大的语音合成能力、低推理成本和灵活的框架兼容性。该模型适用于教育、娱乐和商业场景,能够为用户提供高质量的语音合成解决方案。目前该模型在Hugging Face上免费提供,旨在推动语音合成技术的发展和应用。0110语音处理# 人工智能# 多语言# 技术研究
pdf-to-podcastpdf-to-podcast是一个基于人工智能技术的生产力工具,能够将PDF文档转换成播客节目。它使用OpenAI的文本到语音模型和Google Gemini技术,将PDF内容处理成适合音频播客的自然对话,并输出为MP3文件。该工具的主要优点是能够将静态的文档内容转化为动态的音频内容,方便用户在移动设备上收听,同时也可以作为播客节目的内容来源。0110语音处理# 人工智能# 播客制作# 文本到语音
Say My Name!Say My Name! 是一款以趣味和个性化为核心的语音识别应用。它利用先进的语音识别技术,让用户的设备能够识别和响应用户的声音,尤其是用户的名字。这款应用不仅增加了用户与设备互动的乐趣,还提升了操作的便捷性。Say My Name! 的主要优点包括高准确率的语音识别、个性化的口令设置以及用户友好的操作界面。0110语音处理# 个性化# 便捷操作# 语音识别
TranscribroTranscribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用,它使用whisper.cpp来运行OpenAI Whisper系列模型,并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘,允许用户通过语音进行文字输入,并且可以被其他应用显式使用,或者设置为用户选择的语音转文字应用,部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案,避免了云端处理可能带来的隐私泄露问题。该应用是开源的,用户可以自由地查看、修改和分发代码。0110语音处理# android# 开源# 语音识别
Cols.aiCols.ai 的 AI Phone Calling Platform 是一款旨在实现无缝人类语音通信的AI产品。它能够与电话系统连接,处理呼入电话,并以个性化的上下文进行呼出电话。该平台通过个性化对话提升销售转化率和客户满意度,适用于销售、客户支持、数据收集等多种商业场景。0100语音处理# AI# 多语言支持# 数据分析
EmiliaEmilia是一个开源的多语种野外语音数据集,专为大规模语音生成研究设计。它包含超过101,000小时的六种语言高质量语音数据和相应的文本转录,覆盖了各种说话风格和内容类型,如脱口秀、访谈、辩论、体育评论和有声书。0100语音处理# 多语种# 开源# 语音数据集
fixafixa是一个专注于AI语音代理测试与可观测性的平台,旨在帮助开发者和企业快速发现并修复语音代理中的问题。通过自动化测试、生产监控和错误检测等功能,确保语音代理的稳定性和可靠性。该平台由Y Combinator资助,提供简单透明的定价策略,适合不同规模的企业使用。0100语音处理# AI# 开源# 测试
aTrainaTrain是由格拉茨大学商业分析与数据科学中心的研究人员开发,并由格拉茨知识中心的研究人员测试的一款离线语音转录工具。它利用最新的机器学习模型,无需上传任何数据即可自动转录语音录音。aTrain在《行为与实验金融学杂志》上发表的论文中被介绍,如果用于研究,请引用该论文。它支持Windows 10和11系统,用户可以通过Microsoft应用商店或BANDAS中心网站下载安装。对于Linux系统,提供了Wiki上的安装指南。aTrain的主要优点包括无需上传数据的隐私保护、高质量的转录质量、以及在本地计算机上的快速处理速度。0100语音处理# 多平台支持# 本地处理# 机器学习
Llama3-s v0.2Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点,专注于提升语音理解能力。该模型通过早期融合语义标记的方式,利用社区反馈进行改进,以简化模型结构,提高压缩效率,并实现一致的语音特征提取。Llama3-s v0.2 在多个语音理解基准测试中表现稳定,并提供了实时演示,允许用户亲自体验其功能。尽管模型仍在早期开发阶段,存在一些限制,如对音频压缩敏感、无法处理超过10秒的音频等,但团队计划在未来更新中解决这些问题。0100语音处理# 多模态学习# 机器学习# 自然语言处理
Llama 3.2 3b VoiceLlama 3.2 3b Voice 是基于Hugging Face平台的一款语音合成模型,能够将文本转换为自然流畅的语音。该模型采用了先进的深度学习技术,能够模仿人类说话的语调、节奏和情感,适用于多种场景,如语音助手、有声读物、自动播报等。0100语音处理# 人工智能# 深度学习# 自然语言处理
AI-Powered Meeting SummarizerAI-Powered Meeting Summarizer是一个基于Gradio的网站应用,能够将会议录音转换为文本,并使用whisper.cpp进行音频到文本的转换,以及Ollama服务器进行文本摘要。该工具非常适合快速提取会议中的关键点、决策和行动项目。0100语音处理# Gradio# Whisper# 文本摘要
音刻音刻转录是一款专注于音视频转录的在线工具,通过先进的语音识别技术,能够快速将音频或视频文件转换为文本。其主要优点包括转录速度快、准确率高、支持多种语言和文件格式。产品定位为高效办公和学习辅助工具,旨在帮助用户节省时间和精力,提升工作效率。音刻转录提供免费试用版本,用户可以体验其核心功能,付费版本则提供更多高级功能和大文件支持,满足不同用户的需求。0100语音处理# 办公辅助# 多语言# 搞笑
NotHotDogNotHotDog是一个专注于自动化测试AI代理和语音AI应用的平台。它通过提供自动化、可复用的语音测试案例,简化了对语音API、WebSocket API以及对话AI系统的测试和监控,从而加速功能部署并提高产品质量。0100语音处理# AI测试# API测试# 自动化
kokoro-onnxkokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音(TTS)项目。它支持英语,并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能,并提供多种声音选择,包括耳语。模型轻量级,约为300MB(量化后约为80MB)。该项目在GitHub上开源,采用MIT许可证,方便开发者集成和使用。0100语音处理# ONNX# tts# 开源
AudioscribeAudioscribe是一个由Wordware公司开发的AI驱动的语音转文字工具,旨在帮助用户将语音快速转换为结构化的笔记。它特别适合需要快速记录和整理思路的用户,例如项目写作者、头脑风暴参与者、电子邮件撰写者等。产品背景信息显示,它是一个WordApp,即基于Wordware IDE构建的应用程序,使用户能够使用自然语言创建定制的AI代理。0100语音处理# AI助手# 笔记整理# 自然语言处理
Voiser AI AI TranscriberAI Transcriber: Speech to Text 是一款利用人工智能技术将语音备忘录、会议、访谈和视频转换成文字的应用。它不仅支持WhatsApp语音转录和通话录音转录,还具备多语言支持和自动总结功能。这款应用的主要优点在于其快速准确的AI转录能力,能够帮助用户节省时间并简化任务。产品背景信息显示,Voiser AI 是该应用的开发者,提供包括隐私政策和使用条款在内的详细信息。该应用免费下载,但提供应用内购买服务。0100语音处理# AI转录# 云同步# 多语言支持
Open-LLM-VTuberOpen-LLM-VTuber 是一个开源项目,旨在通过语音与大型语言模型(LLM)进行交互,具有实时的Live2D面部捕捉和跨平台的长期记忆功能。该项目支持macOS、Windows和Linux平台,允许用户选择不同的语音识别和语音合成后端,以及自定义的长期记忆解决方案。它特别适合希望在不同平台上实现与AI进行自然语言对话的开发者和爱好者。090语音处理# AI# Live2D# vtuber
CrisperWhisperCrisperWhisper是基于OpenAI的Whisper模型的高级变体,专为快速、准确、逐字的语音识别设计,提供准确的词级时间戳。与原始Whisper模型相比,CrisperWhisper旨在逐字转录每一个说出的单词,包括填充词、停顿、口吃和错误的开始。该模型在逐字数据集(如TED、AMI)中排名第一,并在INTERSPEECH 2024上被接受。090语音处理# 填充词检测# 时间戳# 自动语音识别
听脑 AI听脑 AI 是一个专业的智能 AI 会议助手,提供一站式的智能会议服务,旨在提高会议效率。它支持实时会议、会议录音和多语言翻译,能够自动生成会议纪要和总结。该产品适用于各种类型的会议,包括线下和线上视频会议,是提升工作效率的重要工具。090语音处理# AI办公助手# AI文档工具# 会议助手
ChatTTS-OpenVoiceChatTTS-OpenVoice是一个结合了ChatTTS和OpenVoice技术的语音克隆模型。它通过上传10秒音频片段,可以克隆个性化的语音,并生成更自然的语音。该技术在语音合成领域具有重要性,因为它提供了一种新的方式来生成逼真的语音,可以用于多种应用场景,如虚拟助手、有声读物等。090语音处理# 自然语音生成# 语音克隆# 音色移植
SpeechGPT 2.0-previewSpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练,实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达,同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互,未来计划扩展到更多语言。090语音处理# 人工智能# 低延迟# 多情感
TestAITestAI是一个专注于AI语音代理的自动化测试与性能分析平台。它通过真实世界的场景模拟和详细的性能评估,帮助企业确保其语音和聊天代理的可靠性和流畅性。该平台提供快速设置、可靠洞察以及自定义指标等功能,能够有效提升AI代理的性能和用户体验。TestAI主要面向需要快速部署和优化AI语音代理的企业,帮助他们节省时间和成本,同时提高AI代理的可信度和安全性。090语音处理# AI测试# 商业优化# 性能分析
Bailing-TTSBailing-TTS是由Giant Network的AI Lab开发的大型文本到语音(TTS)模型系列,专注于生成高质量的中文方言语音。该模型采用持续的半监督学习和特定的Transformer架构,通过多阶段训练过程,有效对齐文本和语音标记,实现中文方言的高质量语音合成。Bailing-TTS在实验中展现出接近人类自然表达的语音合成效果,对于方言语音合成领域具有重要意义。080语音处理# Transformer# 半监督学习# 文本到语音
Whisper-InputWhisper Input 是一个基于 Python 开发的桌面工具,能够实现快速语音转文字功能。它支持通过按键控制录制语音,并调用 Groq Whisper Large V3 Turbo 或 FunAudioLLM/SenseVoiceSmall 模型进行转译。该工具的主要优点是转译速度快、准确率高,并且支持多语言转译。它适合需要高效输入的用户,尤其是那些经常需要进行语音记录和文字转换的场景。目前该工具完全免费,用户无需付费即可使用。080语音处理# 免费# 多语言支持# 生产力工具
Azure 认知服务语音Azure 认知服务语音是微软推出的一款语音识别与合成服务,支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音和重音的自定义语音模型,提高听录的准确度。此外,该服务还支持实时语音转文本、语音翻译、文本转语音等功能,适用于多种商业场景,如字幕生成、通话后听录分析、视频翻译等。080语音处理# 多语言支持# 实时交互# 自定义模型
AI-Faceless-Video-GeneratorAI-Faceless-Video-Generator是一个利用人工智能技术,根据话题生成视频脚本、语音和会说话头像的项目。它结合了sadtalker进行面部动画,gTTS生成AI语音和OpenAI语言模型生成脚本,提供了一个端到端的解决方案,用于生成个性化视频。该项目的主要优点包括脚本生成、AI语音生成、面部动画创建以及易于使用的界面。080语音处理# ai视频生成# 脚本创作# 语音合成
audiblezAudiblez是一个利用Kokoro高质量语音合成技术,将普通电子书(.epub格式)转换为.m4b格式有声书的工具。它支持多种语言和声音,用户可以通过简单的命令行操作完成转换,极大地丰富了电子书的阅读体验,尤其适合在开车、运动等不方便阅读的场景下使用。该工具由Claudio Santini在2025年开发,遵循MIT许可证免费开源。080语音处理# 开源# 有声书# 生产力工具
NUROFILENUROFILE是一个代表未来的AI身份产品,能够适应各种工作机会,并为用户自动匹配招聘要求。其主要优点是能够为用户量身定制、智能推荐和自动生成个性化简历,背景信息包括简历的过时性和招聘过程的变化。目前为免费使用。070语音处理# AI身份# 个性化简历# 招聘要求匹配
BuzzwaldBuzzwald是一款AI语音助手,可在网站上实时与访客进行对话,解答问题,转化线索。其主要优点在于提供即时对话支持,转化访客为客户,并通过AI智能处理线索,帮助提高销售转化率。Buzzwald定位于为企业提供增加在线销售和提升客户服务的解决方案。070语音处理# AI# 在线销售# 客户服务
VoxaVoxa是一个智能语音助手,旨在通过简单的语音命令简化用户的日常生活和工作流程。它集成了任务管理、日程安排、笔记记录和提醒功能,通过与Google Tasks和Google Calendar的无缝集成,提高了用户的工作效率。Voxa的主要优点包括语音任务管理、事件规划和灵活的笔记记录,它通过减少在不同工具间切换的时间,减少时间和注意力的损失,降低压力,提高生产力。Voxa的价格定位是一次性支付9美元,即可获得所有功能,包括无限语音命令、高级语音识别和多设备同步等。070语音处理# Google集成# 任务管理# 多设备同步
VoiceZapVoiceZap是一款创新的生产力工具,它允许用户通过语音指令来触发Zapier上的自动化流程。这一技术极大地简化了自动化任务的触发方式,无需手动操作,提高了工作效率。产品主要面向希望通过语音控制来优化工作流程的用户,无论是个人还是企业用户,都能从中受益。目前,VoiceZap的具体价格和详细定位尚未明确,但从其功能来看,预计会针对需要高效自动化解决方案的市场进行定价。070语音处理# Zapier集成# 生产力提升# 自动化
NijtaNijta提供基于AI的语音匿名化技术,帮助企业在不泄露隐私和保密性的情况下大规模使用语音数据。这项技术的重要性在于,它允许企业在遵守法规的同时,充分利用其语音数据的价值,特别是在处理敏感信息时。Nijta的技术背景是基于对数据隐私和合规性的深刻理解,它通过去除语音数据中的生物特征和身份标识,确保数据的完全匿名性,从而使企业能够无风险地探索数据洞察并释放其全部知识价值。070语音处理# AI技术# 合规性# 大规模数据处理
Real-time Voice AI AgentReal-time Voice AI Agent是一个高度灵活的实时语音交互模型,它能够在大约500毫秒内通过语音回答任何查询。该模型支持用户选择任何大型语言模型、文本到语音(TTS)模型和语音到文本(STT)模型。它非常适合用于客户服务机器人、接待员等涉及语音的应用场景。070语音处理# AI代理# Cerebrium# 多模态对话
whisper-ner-v1Whisper-NER是一个创新的模型,它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别(NER),能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别(ASR)和NER下游任务的强大基础模型,并且可以在特定数据集上进行微调以提高性能。070语音处理# 命名实体识别# 实体识别# 开放类型NER
KatalogKatalog是一个通过AI语音播报文章的工具。它利用超逼真的AI声音播报您保存的文章,提供顶级的听取体验。Katalog还在公共测试阶段免费使用,未来可能会推出免费和付费版本。060语音处理# AI# 文章保存# 语音播报
VoiceAIWrapperVoiceAIWrapper是一个白标平台,可连接Vapi、Retell AI、ElevenLabs等多个语音AI提供商,为代理商提供完全品牌控制的解决方案。它具有低成本、灵活性、快速部署、全面支持和无缝集成等优势。060语音处理# 代理商# 多供应商# 白标
VoceaVocea是一款专为服务提供商设计的AI语音助手,通过自动化处理电话预约、日程确认和实时更新,节省时间、减少错过预约并提供更好的客户体验。它的主要优点在于简化预约流程、避免重复预约和提供实时日历同步功能。060语音处理# AI语音助手# 服务提供商# 自动化
OptiSpeechOptiSpeech是一个高效、轻量级且快速的文本到语音模型,专为设备端文本到语音转换设计。它利用了先进的深度学习技术,能够将文本转换为自然听起来的语音,适合需要在移动设备或嵌入式系统中实现语音合成的应用。OptiSpeech的开发得到了Pneuma Solutions提供的GPU资源支持,显著加速了开发进程。060语音处理# 文本到语音# 深度学习# 端到端模型
RelyableRelyable 是一个自动化 AI 代理测试与监控工具,通过模拟和智能分析,帮助用户评估、优化和监控 AI 语音代理的表现。它能够帮助用户快速部署生产就绪的 AI 代理,提高工作效率。050语音处理# AI# 监控# 自动化测试
whisper-diarizationwhisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过提取音频中的声音部分来提高说话人嵌入的准确性,然后使用Whisper生成转录文本,并通过WhisperX校正时间戳和对齐,以减少由于时间偏移导致的分割错误。接着,使用MarbleNet进行VAD和分割以排除静音,TitaNet用于提取说话人嵌入以识别每个段落的说话人,最后将结果与WhisperX生成的时间戳关联,基于时间戳检测每个单词的说话人,并使用标点模型重新对齐以补偿小的时间偏移。050语音处理# 声音活动检测# 自动转录# 语音识别
SpeechGPT2SpeechGPT2是由复旦大学计算机科学学院开发的端到端语音对话语言模型,能够感知并表达情感,并根据上下文和人类指令以多种风格提供合适的语音响应。该模型采用超低比特率语音编解码器(750bps),模拟语义和声学信息,并通过多输入多输出语言模型(MIMO-LM)进行初始化。目前,SpeechGPT2还是一个基于轮次的对话系统,正在开发全双工实时版本,并已取得一些有希望的进展。尽管受限于计算和数据资源,SpeechGPT2在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有不足,计划未来开源技术报告、代码和模型权重。050语音处理# 多风格响应# 情感表达# 端到端模型
Chirp AIChirp AI 是一款专为 Apple Watch 设计的智能语音助手应用。它通过强大的语音识别和人工智能技术,让用户能够仅通过语音指令完成各种操作,如发送信息、获取信息、搜索网络等,极大地提升了用户在移动场景下的操作效率。该产品的主要优点是无需频繁使用手机,即可实现高效的信息交互和任务处理。它适用于那些希望在日常生活中减少对手机依赖,同时又能快速获取信息和完成任务的用户。目前该应用提供免费下载,定位为提升用户生产力和便捷性的智能工具。050语音处理# apple watch# 智能语音助手# 生产力工具
FitCheck AIFitCheck AI是一个创新的在线时尚顾问平台,利用人工智能技术为用户提供个性化的服装推荐和实时风格分析。它通过摄像头进行实时风格分析,并通过语音激活提供时尚建议,同时提供精选的Pinterest时尚画板,帮助用户打造个性化的衣橱。FitCheck AI致力于简化用户的穿搭选择过程,提升时尚品味。040语音处理# AI时尚顾问# 个性化推荐# 实时风格分析
AI Smart LinkAI Smart Link是由夏普公司与京都艺术大学共同开发的可穿戴设备,旨在实现与生成AI的自然沟通。该设备通过内置麦克风和摄像头捕捉用户环境,并通过语音进行响应,支持用户在多种生活场景下的应用,如骑行导航、烹饪指导和AIoT家电操作。该设备搭载了夏普开发的边缘AI技术'CE-LLM',能够快速响应用户需求,实现流畅自然的对话体验。040语音处理# AI沟通# 可穿戴设备# 生活辅助
Extra ThursdayExtra Thursday是一款声控AI助手,帮助用户清理收件箱、规划日程,处理行政任务,提高工作效率。该产品利用声控技术提供个人助手功能,节省用户时间和精力。030语音处理# email管理# 办公效率# 时间规划
Ola FriendOla Friend是字节跳动豆包推出的首款AI智能体耳机,它通过接入豆包大模型,与豆包APP深度结合,实现了无需打开手机即可通过语音唤醒AI助手的功能。这款耳机在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助,旨在成为用户随时陪伴的朋友。产品采用了OWS(Open Wearable Stereo)专利技术,实现了无感佩戴、不入耳、音响级声效和超长续航等特点。020语音处理# AI智能体# 无感佩戴# 智能耳机
GGAssist GamiMateGGAssist是一款全方位AI游戏助手,为玩家提供AI游戏伙伴、AI语音变声等多项功能,极大提升游戏体验。产品背景信息丰富,技术领先,定位于为广大游戏玩家提供全面的智能辅助。010语音处理# AI游戏伴侣# 在线AI语音变声
WeSTWeST是一个开源的语音识别转录模型,以300行代码的简洁形式,基于大型语言模型(LLM)实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成,其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1,旨在通过简化的代码实现高效的语音识别功能。010语音处理# 开源# 机器学习# 自然语言处理