语音对话

共 4 篇网址

排序

发布更新浏览点赞

百聆

百聆是一个开源的语音对话助手，旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术，提供高质量的语音对话体验。其主要优点是无需GPU即可实现类GPT-4o的对话效果，适用于各种边缘设备和低资源环境。百聆完全开源，鼓励社区贡献与二次开发，用户可以根据自己的需求进行定制和优化。

0110

智能聊天机器人 # AI # 低配置 # 开源

SpeechGPT2

SpeechGPT2是由复旦大学计算机科学学院开发的端到端语音对话语言模型，能够感知并表达情感，并根据上下文和人类指令以多种风格提供合适的语音响应。该模型采用超低比特率语音编解码器（750bps），模拟语义和声学信息，并通过多输入多输出语言模型（MIMO-LM）进行初始化。目前，SpeechGPT2还是一个基于轮次的对话系统，正在开发全双工实时版本，并已取得一些有希望的进展。尽管受限于计算和数据资源，SpeechGPT2在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有不足，计划未来开源技术报告、代码和模型权重。

060

语音处理 # 多风格响应 # 情感表达 # 端到端模型

Polaris

Polaris是由Hippocratic AI 开发的一款高度专注于安全、用于医疗保健的大语言模型（LLM）系统，通过星座架构和专业支持代理组合，能够执行多项医疗相关的复杂任务。产品定位于提供与患者长时间、多轮次的语音对话，并提供专业准确的医疗建议。价格方面，按小时计费，每小时9美元。主要功能包括实时多轮语音对话、医疗信息提供和解释、隐私与合规性检查、药物管理和咨询、实验室与生命体征分析、营养建议、病历和政策查询、患者关系建设等。

050

医疗健康 # 医疗保健 # 大语言模型 # 语音对话

Adambot||AIGC网站

集成了市面各大AI模型，拥有语音，图片，文字甚至视频的AIGC能力

040

文本 # AIGC # chatGPT4 # GPT-4plus会员