热门

POINTS-Qwen-2-5-7B-Chat

8个月前发布 13 00

POINTS-Qwen-2-5-7B-Chat是一个集成了视觉语言模型最新进展和新技巧的模型，由微信AI的研究人员提出。它通过预训练数据集筛选、模型汤等技术，显著提升了模型性能。这个模型在多个基准测试中表现优异，是视觉语言模型领域的一个重要进步。

收录时间：

2025-05-30

打开网站手机查看

文案写作 # 图像文本到文本 # 多模态 # 对话系统 # 视觉语言模型

POINTS-Qwen-2-5-7B-Chat

POINTS-Qwen-2-5-7B-Chat

POINTS-Qwen-2-5-7B-Chat是一个集成了视觉语言模型最新进展和新技巧的模型，由微信AI的研究人员提出。它通过预训练数据集筛选、模型汤等技术，显著提升了模型性能。这个模型在多个基准测试中表现优异，是视觉语言模型领域的一个重要进步。

数据统计

相关导航

Ferret-UI-Llama8b

Ferret-UI是首个以用户界面为中心的多模态大型语言模型（MLLM），专为指代表达、定位和推理任务设计。它基于Gemma-2B和Llama-3-8B构建，能够执行复杂的用户界面任务。这个版本遵循了Apple的研究论文，是一个强大的工具，可以用于图像文本到文本的任务，并且在对话和文本生成方面具有优势。

InternVL2_5-78B

InternVL 2.5是一系列先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，进一步发展而来。该模型系列在视觉感知和多模态能力方面进行了优化，支持包括图像、文本到文本的转换在内的多种功能，适用于需要处理视觉和语言信息的复杂任务。

Llama-3-Patronus-Lynx-8B-Instruct

Llama-3-Patronus-Lynx-8B-Instruct是由Patronus AI开发的一个基于meta-llama/Meta-Llama-3-8B-Instruct模型的微调版本，主要用于检测在RAG设置中的幻觉。该模型训练于包含CovidQA、PubmedQA、DROP、RAGTruth等多个数据集，包含人工标注和合成数据。它能够评估给定文档、问题和答案是否忠实于文档内容，不提供文档之外的新信息，也不与文档信息相矛盾。

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代，代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频，为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外，Qwen2-VL还支持多语言，除了英语和中文，还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE)，增强了其多模态处理能力。

OLMo-2-1124-13B-Instruct

OLMo-2-1124-13B-Instruct是由Allen AI研究所开发的一款大型语言模型，专注于文本生成和对话任务。该模型在多个任务上表现出色，包括数学问题解答、科学问题解答等。它是基于13B参数的版本，经过在特定数据集上的监督微调和强化学习训练，以提高其性能和安全性。作为一个开源模型，它允许研究人员和开发者探索和改进语言模型的科学。

Fluxx.AI

FLUX.1 Kontext是一款革命性的多模态AI模型，将文本指令与图像编辑和生成相结合，实现精准本地化编辑，保持角色一致性和风格连贯性。该产品适用于营销内容创作、电影制作和设计等专业工作流程。

Janus-Pro-7B

Janus-Pro-7B 是一个强大的多模态模型，能够同时处理文本和图像数据。它通过分离视觉编码路径，解决了传统模型在理解和生成任务中的冲突，提高了模型的灵活性和性能。该模型基于 DeepSeek-LLM 架构，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并在多模态任务中表现出色。其主要优点包括高效性、灵活性和强大的多模态处理能力。该模型适用于需要多模态交互的场景，例如图像生成和文本理解。

InternVL2-8B-MPO

InternVL2-8B-MPO是一个多模态大语言模型（MLLM），通过引入混合偏好优化（MPO）过程，增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线，并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面，InternVL2-8B-MPO基于InternVL2-8B初始化，并使用MMPR数据集进行微调，展现出更强的多模态推理能力，且幻觉现象更少。该模型在MathVista上取得了67.0%的准确率，超越InternVL2-8B 8.7个点，且表现接近于大10倍的InternVL2-76B。

暂无评论

您必须登录才能参与评论！

none

暂无评论...