ultravox-v0_4_1-llama-3_1-8b

ultravox-v0_4_1-llama-3_1-8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色,且没有偏好调整,适用于语音代理、语音到语音翻译、语音分析等场景。
0260
Langotalk官网

Langotalk官网

这个工具可以帮助人们通过与人工智能聊天,以6倍的速度学习西班牙语、英语、法语、德语、荷兰语或意大利语。Langotalk是一款跨语言交流的应用程序,它可以为用户提供更便捷、更直观的跨语言沟通解决方案。该应用程序通过语音和翻译技术,将不同语言的用户连接在了一起,为他们提供了全新的交流体验。
0170
TransVIP

TransVIP

TransVIP是由微软研究院开发的一个创新的语音到语音翻译系统,它能够在翻译过程中保留说话者的声音特征和等时性(即说话的节奏和停顿),这对于视频配音等场景非常有用。TransVIP通过联合概率实现端到端的推理,同时利用不同的数据集进行级联处理。该技术的主要优点包括高适应性、声音特征保留以及等时性保持,这使得它在多语言交流和内容本地化领域具有重要价值。
0160
ultravox-v0_4_1-mistral-nemo

ultravox-v0_4_1-mistral-nemo

ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型(LLM)。该模型能够同时处理语音和文本输入,例如,一个文本系统提示和一个语音用户消息。Ultravox通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以输入到声码器中产生语音输出。该模型由Fixie.ai开发,采用MIT许可。
0140
ViiTor实时翻译

ViiTor实时翻译

ViiTor实时翻译是由云上曲率公司推出的一款多语言AI实时翻译工具,旨在打破语言障碍,让全球沟通变得无比简单。ViiTor实时翻译利用先进的语音识别技术,支持近18种语言的流畅转译,具备即时翻译、对话翻译、语音识别等功能。无论是在国际旅行、商务会议还是多语言学习中,ViiTor实时翻译都能提供无缝的音频翻译、AR翻译支持。
0120