自动语音识别

共 12 篇网址

排序

发布更新浏览点赞

BetterWhisperX

BetterWhisperX是一个基于WhisperX改进的自动语音识别模型，它能够提供快速的语音转文字服务，并具备词级时间戳和说话人识别功能。这个工具对于需要处理大量音频数据的研究人员和开发者来说非常重要，因为它可以大幅提高语音数据处理的效率和准确性。产品背景基于OpenAI的Whisper模型，但做了进一步的优化和改进。目前，该项目是免费且开源的，定位于为开发者社区提供更高效、更准确的语音识别工具。

0200

语音处理 # 多语言支持 # 开源 # 自动语音识别

Whisper large-v3-turbo

Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练，能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本，解码层从32减少到4，以提高速度，但可能会略微降低质量。

0180

智能翻译 # 多语言支持 # 自动语音识别 # 语音翻译

WhisperNER

WhisperNER是一个结合了自动语音识别（ASR）和命名实体识别（NER）的统一模型，具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大基础模型，并可以在特定数据集上进行微调以提高性能。WhisperNER的重要性在于其能够同时处理语音识别和实体识别任务，提高了处理效率和准确性，尤其在多语言和跨领域的场景中具有显著优势。

0160

语音处理 # 命名实体识别 # 多语言支持 # 开源

zeroscope_v2_XL

管道标签不在官方列表中

0150

AIGC影视平台 AI视频模型 # 句子相似性 # 可视化问题解答 # 图像分割

Whisper by OpenAI

Whisper是一个接近人类级别准确性的自动语音识别系统，具有鲁棒性和多语言转录翻译功能。

0140

文字转语音音频AI # 自动语音识别 # 语音识别

SpeechFlow

SpeechFlow Speech Recognition API 是一款功能强大的工具，可将声音转换为文本、语音转换为文本和音频转换为文本，准确率高达 14 种语言。

0130

AI赋能 AI音频工具 # API # ASR # 在线语音到文本

NeMo

NeMo是一款由NVIDIA开发的生成式人工智能框架，可用于构建大型语言模型、多模态模型、自动语音识别和文本到语音合成等应用。NeMo框架具有高效性、灵活性和易用性，可满足研究人员和开发者的需求。

0120

商业AI 生产效率 # 对话式人工智能 # 自动语音识别

Moonshine Web

Moonshine Web是一个基于React和Vite构建的简单应用，它运行了Moonshine Base，这是一个针对快速准确自动语音识别（ASR）优化的强大语音识别模型，适用于资源受限的设备。该应用在浏览器端本地运行，使用Transformers.js和WebGPU加速（或WASM作为备选）。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案，这对于需要快速处理语音数据的应用场景尤为重要。

0120

语音处理 # ASR # Transformers.js # WebGPU

CrisperWhisper

CrisperWhisper是基于OpenAI的Whisper模型的高级变体，专为快速、准确、逐字的语音识别设计，提供准确的词级时间戳。与原始Whisper模型相比，CrisperWhisper旨在逐字转录每一个说出的单词，包括填充词、停顿、口吃和错误的开始。该模型在逐字数据集（如TED、AMI）中排名第一，并在INTERSPEECH 2024上被接受。

090

语音处理 # 填充词检测 # 时间戳 # 自动语音识别

whisper-ner-v1

Whisper-NER是一个创新的模型，它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别（NER），能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别（ASR）和NER下游任务的强大基础模型，并且可以在特定数据集上进行微调以提高性能。

090

语音处理 # 命名实体识别 # 实体识别 # 开放类型NER

Voci Technologies

Voci是一款高效、准确的自动语音识别产品，可以将联系中心呼叫转录为文字，帮助企业提升客户体验和获取有价值的数据。

070

文字转语音音频AI # 自动语音识别 # 语音技术

Vivoka

Vivoka提供一种全方位解决方案，使任何公司能够在最短时间内创建自己的高性能、安全的离线语音AI助手。该解决方案包括唤醒词、自动语音识别、自然语言理解、语音生物识别、语音合成和音频增强等功能。它适用于智能眼镜、供应链、维护报告、虚拟现实、嵌入式系统和智能建筑等多个应用场景。

030

商业AI 客户支持 # 离线语音AI # 自动语音识别