Translation AgentTranslation Agent 是一个使用反思工作流的机器翻译演示项目。它由 Andrew Ng 以及合作者开发,主要利用大型语言模型(LLM)进行文本翻译,并反思翻译结果以提出改进建议。该模型的可定制性高,可以调整翻译风格、处理习语和专有名词,以及针对特定地区或方言进行优化。尽管目前该软件还不够成熟,但已经显示出与传统机器翻译系统相比有时更具竞争力的潜力。
StreamSpeechStreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略,有效识别流式语音输入中的翻译时机,实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能,并能提供低延迟的中间结果,如ASR或翻译结果。
ViiTor实时翻译ViiTor实时翻译是由云上曲率公司推出的一款多语言AI实时翻译工具,旨在打破语言障碍,让全球沟通变得无比简单。ViiTor实时翻译利用先进的语音识别技术,支持近18种语言的流畅转译,具备即时翻译、对话翻译、语音识别等功能。无论是在国际旅行、商务会议还是多语言学习中,ViiTor实时翻译都能提供无缝的音频翻译、AR翻译支持。
Chiao AIChiao AI是一款AI文档翻译工具,为用户提供专业的文档翻译服务。Chiao AI提供PDF、Word、Excel、PPT等文档的高质量AI翻译服务,支持176种语言、50+文件格式。告别低质量机翻!Chiao AI让文档翻译像聊天一样简单,大文件翻译,边聊边改就搞定。免费10MB,专业版50MB,格式完美还原!
DuRTDuRT 是一款专注于 macOS 系统的语音识别和翻译工具。它通过本地 AI 模型和系统服务实现语音的实时识别与翻译,支持多种语音识别方法,提高了识别的准确度和语言支持范围。该产品以悬浮框形式展示结果,方便用户在使用过程中快速获取信息。其主要优点包括高准确度、隐私保护(不收集用户信息)以及便捷的操作体验。DuRT 定位为一款高效生产力工具,旨在帮助用户在多语言环境下更高效地进行沟通和工作。目前产品可在 Mac App Store 下载,具体价格未在页面中明确提及。
TransVIPTransVIP是由微软研究院开发的一个创新的语音到语音翻译系统,它能够在翻译过程中保留说话者的声音特征和等时性(即说话的节奏和停顿),这对于视频配音等场景非常有用。TransVIP通过联合概率实现端到端的推理,同时利用不同的数据集进行级联处理。该技术的主要优点包括高适应性、声音特征保留以及等时性保持,这使得它在多语言交流和内容本地化领域具有重要价值。
ultravox-v0_4_1-mistral-nemoultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型(LLM)。该模型能够同时处理语音和文本输入,例如,一个文本系统提示和一个语音用户消息。Ultravox通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以输入到声码器中产生语音输出。该模型由Fixie.ai开发,采用MIT许可。
Whisper large-v3-turboWhisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练,能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本,解码层从32减少到4,以提高速度,但可能会略微降低质量。