EMOVAEMOVA(EMotionally Omni-present Voice Assistant)是一个多模态语言模型,它能够进行端到端的语音处理,同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器,实现了情感丰富的多模态对话,并在视觉-语言和语音基准测试中达到了最先进的性能。
SpeechGPT 2.0-previewSpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练,实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达,同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互,未来计划扩展到更多语言。
SesameSesame 是一个专注于语音技术的跨学科产品和研究团队,旨在通过自然语音交互,让用户与计算机的交互更加自然和高效。其主要产品包括个人语音伴侣和轻量级可穿戴眼镜设备,旨在实现计算机的拟人化,帮助用户更好地组织信息、提升效率。产品的主要优点是语音交互的自然性和设备的便携性,适合日常使用。目前,Sesame 正在积极招聘,致力于推动语音技术的创新。
Chirp AIChirp AI 是一款专为 Apple Watch 设计的智能语音助手应用。它通过强大的语音识别和人工智能技术,让用户能够仅通过语音指令完成各种操作,如发送信息、获取信息、搜索网络等,极大地提升了用户在移动场景下的操作效率。该产品的主要优点是无需频繁使用手机,即可实现高效的信息交互和任务处理。它适用于那些希望在日常生活中减少对手机依赖,同时又能快速获取信息和完成任务的用户。目前该应用提供免费下载,定位为提升用户生产力和便捷性的智能工具。
voice-chat-pdfvoice-chat-pdf是一个基于LlamaIndex项目,使用Next.js构建的示例,它通过简单的RAG系统,允许用户通过语音与PDF文档进行交互。这个项目需要OpenAI API密钥来访问实时API,并在项目中生成文档的嵌入向量,以便进行语音交互。它展示了如何将先进的机器学习技术应用于提高文档交互的效率和便捷性。
RivieraRiviera 是一款专为酒店行业设计的AI语音平台,旨在通过智能化的语音交互提升客户体验并优化酒店运营效率。它支持多语言对话,能够快速响应客户咨询,处理预订、房间服务等需求,同时通过数据分析提供个性化服务。该产品利用先进的AI技术,减少人工干预,降低运营成本,尤其适合酒店在高峰期减轻员工工作压力。其背景是随着酒店行业的数字化转型,客户对服务的即时性和个性化需求日益增长,Riviera 正是为满足这一需求而生。价格和具体定位需根据酒店规模和需求定制。
SpeekSpeek是一款AI驱动的助手,通过语音和动画鼠标指针指导用户在网站上的操作,帮助解答问题、引导用户了解网站功能,并简化购买决策。它通过提供实时帮助,结合支持和引导,快速安装并立即开始工作,改善用户体验,提升销售,并减少客户支持查询。
Open-LLM-VTuberOpen-LLM-VTuber 是一个开源项目,旨在通过语音与大型语言模型(LLM)进行交互,具有实时的Live2D面部捕捉和跨平台的长期记忆功能。该项目支持macOS、Windows和Linux平台,允许用户选择不同的语音识别和语音合成后端,以及自定义的长期记忆解决方案。它特别适合希望在不同平台上实现与AI进行自然语言对话的开发者和爱好者。