热门

MiniCPM-o-2_6

11个月前发布 20 00

MiniCPM-o 2.6是MiniCPM-o系列中最新且功能最强大的模型。该模型基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建，拥有8B参数。它在视觉理解、语音交互和多模态直播方面表现出色，支持实时语音对话和多模态直播功能。该模型在开源社区中表现优异，超越了多个知名...

收录时间：

2025-05-29

打开网站手机查看

语音处理 # 多模态 # 实时直播 # 视觉理解 # 语言模型 # 语音交互 # 高效推理

MiniCPM-o-2_6

MiniCPM-o-2_6

MiniCPM-o 2.6是MiniCPM-o系列中最新且功能最强大的模型。该模型基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建，拥有8B参数。它在视觉理解、语音交互和多模态直播方面表现出色，支持实时语音对话和多模态直播功能。该模型在开源社区中表现优异，超越了多个知名模型。其优势在于高效的推理速度、低延迟、低内存和功耗，能够在iPad等终端设备上高效支持多模态直播。此外，MiniCPM-o 2.6易于使用，支持多种使用方式，包括llama.cpp的CPU推理、int4和GGUF格式的量化模型、vLLM的高吞吐量推理等。

数据统计

相关导航

EMOVA

EMOVA（EMotionally Omni-present Voice Assistant）是一个多模态语言模型，它能够进行端到端的语音处理，同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器，实现了情感丰富的多模态对话，并在视觉-语言和语音基准测试中达到了最先进的性能。

Riviera

Riviera 是一款专为酒店行业设计的AI语音平台，旨在通过智能化的语音交互提升客户体验并优化酒店运营效率。它支持多语言对话，能够快速响应客户咨询，处理预订、房间服务等需求，同时通过数据分析提供个性化服务。该产品利用先进的AI技术，减少人工干预，降低运营成本，尤其适合酒店在高峰期减轻员工工作压力。其背景是随着酒店行业的数字化转型，客户对服务的即时性和个性化需求日益增长，Riviera 正是为满足这一需求而生。价格和具体定位需根据酒店规模和需求定制。

voice-chat-pdf

voice-chat-pdf是一个基于LlamaIndex项目，使用Next.js构建的示例，它通过简单的RAG系统，允许用户通过语音与PDF文档进行交互。这个项目需要OpenAI API密钥来访问实时API，并在项目中生成文档的嵌入向量，以便进行语音交互。它展示了如何将先进的机器学习技术应用于提高文档交互的效率和便捷性。

Chirp AI

Chirp AI 是一款专为 Apple Watch 设计的智能语音助手应用。它通过强大的语音识别和人工智能技术，让用户能够仅通过语音指令完成各种操作，如发送信息、获取信息、搜索网络等，极大地提升了用户在移动场景下的操作效率。该产品的主要优点是无需频繁使用手机，即可实现高效的信息交互和任务处理。它适用于那些希望在日常生活中减少对手机依赖，同时又能快速获取信息和完成任务的用户。目前该应用提供免费下载，定位为提升用户生产力和便捷性的智能工具。

Sesame

Sesame 是一个专注于语音技术的跨学科产品和研究团队，旨在通过自然语音交互，让用户与计算机的交互更加自然和高效。其主要产品包括个人语音伴侣和轻量级可穿戴眼镜设备，旨在实现计算机的拟人化，帮助用户更好地组织信息、提升效率。产品的主要优点是语音交互的自然性和设备的便携性，适合日常使用。目前，Sesame 正在积极招聘，致力于推动语音技术的创新。

Open-LLM-VTuber

Open-LLM-VTuber 是一个开源项目，旨在通过语音与大型语言模型（LLM）进行交互，具有实时的Live2D面部捕捉和跨平台的长期记忆功能。该项目支持macOS、Windows和Linux平台，允许用户选择不同的语音识别和语音合成后端，以及自定义的长期记忆解决方案。它特别适合希望在不同平台上实现与AI进行自然语言对话的开发者和爱好者。

SpeechGPT 2.0-preview

SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练，实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达，同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互，未来计划扩展到更多语言。

Speek

Speek是一款AI驱动的助手，通过语音和动画鼠标指针指导用户在网站上的操作，帮助解答问题、引导用户了解网站功能，并简化购买决策。它通过提供实时帮助，结合支持和引导，快速安装并立即开始工作，改善用户体验，提升销售，并减少客户支持查询。

暂无评论

您必须登录才能参与评论！

none

暂无评论...