热门

SmolVLM-500M-Instruct

11个月前发布 25 00

SmolVLM-500M 是由 Hugging Face 开发的轻量级多模态模型，属于 SmolVLM 系列。该模型基于 Idefics3 架构，专注于高效的图像和文本处理任务。它能够接受任意顺序的图像和文本输入，生成文本输出，适用于图像描述、视觉问答等任务。其轻量级架构使其能够在资源受限的设备上运行，同时保持强大的多模态任务性能。该模型...

收录时间：

2025-06-02

打开网站手机查看

智能聊天机器人 # 图像描述 # 多模态 # 开源 # 搞笑 # 视觉问答 # 轻量级

SmolVLM-500M-Instruct

SmolVLM-500M-Instruct

SmolVLM-500M 是由 Hugging Face 开发的轻量级多模态模型，属于 SmolVLM 系列。该模型基于 Idefics3 架构，专注于高效的图像和文本处理任务。它能够接受任意顺序的图像和文本输入，生成文本输出，适用于图像描述、视觉问答等任务。其轻量级架构使其能够在资源受限的设备上运行，同时保持强大的多模态任务性能。该模型采用 Apache 2.0 许可证，支持开源和灵活的使用场景。

数据统计

相关导航

OmAgent.com

OmAgent是一个多模态原生代理框架，用于智能设备等。它采用分治算法高效解决复杂任务，能预处理长视频并以类似人类的精度进行问答，还能基于用户请求和可选天气条件提供个性化服装建议等。目前官网未明确显示价格，但从功能来看，主要面向需要高效任务处理和智能交互的用户群体，如开发者、企业等。

xiaozhi-esp32

xiaozhi-esp32 是一个开源的 AI 聊天机器人项目，基于乐鑫的 ESP-IDF 开发。它将大语言模型与硬件设备相结合，使用户能够打造出个性化的 AI 伴侣。项目支持多种语言的语音识别与对话，具备声纹识别功能，能够识别不同用户的语音特征。其开源特性降低了 AI 硬件开发的门槛，为学生、开发者等群体提供了宝贵的学习资源，有助于推动 AI 技术在硬件领域的应用与创新。项目目前免费开源，适合不同层次的开发者进行学习与二次开发。

Geekits

Geekits是一个由YGeeker出品的开源和免费的平台，提供了一系列实用工具，包括人工智能、生活常用、图片视频处理、编程开发等多个领域。它不仅为普通用户提供了便捷的服务，也为开发者提供了编程相关的辅助工具。Geekits的主要优点在于其功能的多样性和实用性，用户可以在这里找到从日常小工具到专业开发辅助的各类工具，极大地提高了工作和生活的效率。

Phi-4-multimodal-instruct

Phi-4-multimodal-instruct 是微软开发的多模态基础模型，支持文本、图像和音频输入，生成文本输出。该模型基于Phi-3.5和Phi-4.0的研究和数据集构建，经过监督微调、直接偏好优化和人类反馈强化学习等过程，以提高指令遵循能力和安全性。它支持多种语言的文本、图像和音频输入，具有128K的上下文长度，适用于多种多模态任务，如语音识别、语音翻译、视觉问答等。该模型在多模态能力上取得了显著提升，尤其在语音和视觉任务上表现出色。它为开发者提供了强大的多模态处理能力，可用于构建各种多模态应用。

Open Multi-Agent Canvas

Open Multi-Agent Canvas 是一个基于 Next.js、LangGraph 和 CopilotKit 构建的开源多智能体聊天界面。它允许用户在一个动态对话中管理多个智能体，主要用于旅行规划和研究。该产品利用先进的技术，为用户提供高效、灵活的多智能体交互体验。其开源特性使得开发者可以根据需求进行定制和扩展，具有很高的灵活性和可扩展性。

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO是一个多模态大型语言模型（MLLM），它在InternVL2.5的基础上，通过混合偏好优化（Mixed Preference Optimization, MPO）进一步提升了模型性能。该模型能够处理包括图像、文本在内的多模态数据，广泛应用于图像描述、视觉问答等场景。它的重要性在于能够理解和生成与图像内容紧密相关的文本，推动了多模态人工智能的边界。产品背景信息包括其在多模态任务中的卓越性能，以及在OpenCompass Learderboard中的评估结果。该模型为研究者和开发者提供了强大的工具，以探索和实现多模态人工智能的潜力。

Coding-Tutor

Coding-Tutor是一个基于大型语言模型（LLM）的编程辅导工具，旨在通过对话式交互帮助学习者提升编程能力。它通过Trace-and-Verify（Traver）工作流，结合知识追踪和逐轮验证，解决编程辅导中的关键挑战。该工具不仅适用于编程教育，还可扩展到其他任务辅导场景，帮助根据学习者的知识水平调整教学内容。项目开源，支持社区贡献。

InternVL2_5-1B-MPO

InternVL2_5-1B-MPO是一个多模态大型语言模型（MLLM），它基于InternVL2.5和混合偏好优化（MPO）构建，展示了优越的整体性能。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型（LLMs），包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL2.5-MPO在模型架构上保留了与InternVL 2.5及其前身相同的“ViT-MLP-LLM”范式，并引入了对多图像和视频数据的支持。该模型在多模态任务中表现出色，能够处理包括图像描述、视觉问答等多种视觉语言任务。

暂无评论

您必须登录才能参与评论！

none

暂无评论...