热门

ultravox-v0_4_1-mistral-nemo

11个月前发布 19 00

ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型（LLM）。该模型能够同时处理语音和文本输入，例如，一个文本系统提示和一个语音用户消息。Ultravox通过特殊的伪标记将输入音频转换为嵌入，并...

收录时间：

2025-05-30

打开网站手机查看

智能翻译 # 多模态模型 # 混合精度训练 # 知识蒸馏 # 语音翻译 # 语音识别

ultravox-v0_4_1-mistral-nemo

ultravox-v0_4_1-mistral-nemo

ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型（LLM）。该模型能够同时处理语音和文本输入，例如，一个文本系统提示和一个语音用户消息。Ultravox通过特殊的伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以输入到声码器中产生语音输出。该模型由Fixie.ai开发，采用MIT许可。

数据统计

相关导航

StreamSpeech

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略，有效识别流式语音输入中的翻译时机，实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能，并能提供低延迟的中间结果，如ASR或翻译结果。

Chiao AI

Chiao AI是一款AI文档翻译工具，为用户提供专业的文档翻译服务。Chiao AI提供PDF、Word、Excel、PPT等文档的高质量AI翻译服务，支持176种语言、50+文件格式。告别低质量机翻！Chiao AI让文档翻译像聊天一样简单，大文件翻译，边聊边改就搞定。免费10MB，专业版50MB，格式完美还原！

TransVIP

TransVIP是由微软研究院开发的一个创新的语音到语音翻译系统，它能够在翻译过程中保留说话者的声音特征和等时性（即说话的节奏和停顿），这对于视频配音等场景非常有用。TransVIP通过联合概率实现端到端的推理，同时利用不同的数据集进行级联处理。该技术的主要优点包括高适应性、声音特征保留以及等时性保持，这使得它在多语言交流和内容本地化领域具有重要价值。

Whisper large-v3-turbo

Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练，能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本，解码层从32减少到4，以提高速度，但可能会略微降低质量。

ultravox-v0_4_1-llama-3_1-8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色，且没有偏好调整，适用于语音代理、语音到语音翻译、语音分析等场景。

DuRT

DuRT 是一款专注于 macOS 系统的语音识别和翻译工具。它通过本地 AI 模型和系统服务实现语音的实时识别与翻译，支持多种语音识别方法，提高了识别的准确度和语言支持范围。该产品以悬浮框形式展示结果，方便用户在使用过程中快速获取信息。其主要优点包括高准确度、隐私保护（不收集用户信息）以及便捷的操作体验。DuRT 定位为一款高效生产力工具，旨在帮助用户在多语言环境下更高效地进行沟通和工作。目前产品可在 Mac App Store 下载，具体价格未在页面中明确提及。

ViiTor实时翻译

ViiTor实时翻译是由云上曲率公司推出的一款多语言AI实时翻译工具，旨在打破语言障碍，让全球沟通变得无比简单。ViiTor实时翻译利用先进的语音识别技术，支持近18种语言的流畅转译，具备即时翻译、对话翻译、语音识别等功能。无论是在国际旅行、商务会议还是多语言学习中，ViiTor实时翻译都能提供无缝的音频翻译、AR翻译支持。

暂无评论

您必须登录才能参与评论！

none

暂无评论...