热门

M2RAG

11个月前发布 22 00

M2RAG是一个用于多模态上下文中的检索增强生成的基准测试代码库。它通过多模态检索文档来回答问题，评估多模态大语言模型（MLLMs）在利用多模态上下文知识方面的能力。该模型在图像描述、多模态问答、事实验证和图像重排等任务上进行了评估，旨在提升模型在多模态上下文学习中的有效性。M2RAG为研究人员提供了一个标准化的测试平台，有助于推动多模态...

收录时间：

2025-05-30

打开网站手机查看

智能聊天机器人 # 事实验证 # 图像 # 基准测试 # 多模态 # 大语言模型 # 检索增强生成 # 问答

M2RAG

M2RAG

M2RAG是一个用于多模态上下文中的检索增强生成的基准测试代码库。它通过多模态检索文档来回答问题，评估多模态大语言模型（MLLMs）在利用多模态上下文知识方面的能力。该模型在图像描述、多模态问答、事实验证和图像重排等任务上进行了评估，旨在提升模型在多模态上下文学习中的有效性。M2RAG为研究人员提供了一个标准化的测试平台，有助于推动多模态语言模型的发展。

数据统计

相关导航

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO是一个多模态大型语言模型（MLLM），它在InternVL2.5的基础上，通过混合偏好优化（Mixed Preference Optimization, MPO）进一步提升了模型性能。该模型能够处理包括图像、文本在内的多模态数据，广泛应用于图像描述、视觉问答等场景。它的重要性在于能够理解和生成与图像内容紧密相关的文本，推动了多模态人工智能的边界。产品背景信息包括其在多模态任务中的卓越性能，以及在OpenCompass Learderboard中的评估结果。该模型为研究者和开发者提供了强大的工具，以探索和实现多模态人工智能的潜力。

Reddit Answers

Reddit Answers是Reddit推出的一个新功能，旨在通过AI技术，让用户能够从Reddit社区中获取信息、建议、讨论和观点。这个功能通过AI驱动的对话界面，让用户可以提出问题，并从Reddit的各个社区中获得相关讨论的汇总，包括相关社区和帖子的链接。Reddit Answers的推出是为了改善Reddit的搜索体验，使其更快、更智能、更相关。目前，Reddit Answers仅在美国的有限用户中推出，并且目前只支持英语，未来计划扩展到其他语言和地区。

SmolVLM-500M-Instruct

SmolVLM-500M 是由 Hugging Face 开发的轻量级多模态模型，属于 SmolVLM 系列。该模型基于 Idefics3 架构，专注于高效的图像和文本处理任务。它能够接受任意顺序的图像和文本输入，生成文本输出，适用于图像描述、视觉问答等任务。其轻量级架构使其能够在资源受限的设备上运行，同时保持强大的多模态任务性能。该模型采用 Apache 2.0 许可证，支持开源和灵活的使用场景。

InternVL2_5-1B-MPO

InternVL2_5-1B-MPO是一个多模态大型语言模型（MLLM），它基于InternVL2.5和混合偏好优化（MPO）构建，展示了优越的整体性能。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型（LLMs），包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL2.5-MPO在模型架构上保留了与InternVL 2.5及其前身相同的“ViT-MLP-LLM”范式，并引入了对多图像和视频数据的支持。该模型在多模态任务中表现出色，能够处理包括图像描述、视觉问答等多种视觉语言任务。

岩芯数智

岩芯数智是一家专注于人工智能领域的公司，提供多种智能模型服务，包括Yan模型和Dolphin模型。Yan模型是国产化的大模型，支持多模态，承诺为用户提供训练周期短、数据集需求小、性价比更高的服务，帮助各产业链快速、低成本向智能化转型。Dolphin模型则提供智能对话、文章生成、文案摘要等功能，支持私域模型微调，以满足不同行业的需求。

Phi-4-multimodal-instruct

Phi-4-multimodal-instruct 是微软开发的多模态基础模型，支持文本、图像和音频输入，生成文本输出。该模型基于Phi-3.5和Phi-4.0的研究和数据集构建，经过监督微调、直接偏好优化和人类反馈强化学习等过程，以提高指令遵循能力和安全性。它支持多种语言的文本、图像和音频输入，具有128K的上下文长度，适用于多种多模态任务，如语音识别、语音翻译、视觉问答等。该模型在多模态能力上取得了显著提升，尤其在语音和视觉任务上表现出色。它为开发者提供了强大的多模态处理能力，可用于构建各种多模态应用。

汉王天地大模型

汉王天地大模型是汉王科技推出的一款专注于人工智能领域的大语言模型，拥有30年的行业积累。它能够实现多轮对话，高效处理任务，并深耕办公、教育、人文等多个垂直细分领域。该模型通过从人类反馈中进行强化学习，不断优化自身智能，提供包括智能校对、自动翻译、法律咨询、绘画生成、文案生成等在内的多样化服务，以赋能法律、人文、办公、教育、医养等行业，提升效率和创意。

Ask The Post AI

Ask The Post AI是华盛顿邮报推出的一款基于人工智能的产品，它允许读者就自2016年以来发布的所有报道提出问题。该产品利用生成式AI技术和对话格式，依托华盛顿邮报长期以来基于事实、深入报道的新闻传统，以新的方式取悦并通知读者。Ask The Post AI通过机器学习团队对Climate Answers工具的数据进行提炼，优化了如何检索和匹配自2016年以来新闻室发布的所有报道中与用户查询相关的相关文章。

暂无评论

您必须登录才能参与评论！

none

暂无评论...