热门

InternVL2-8B-MPO

11个月前发布 19 00

InternVL2-8B-MPO是一个多模态大语言模型（MLLM），通过引入混合偏好优化（MPO）过程，增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线，并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面，InternVL2-8B-MPO基于InternVL2-8B初始化，并使用MMPR数据集进行微调，展...

收录时间：

2025-05-29

打开网站手机查看

文案写作 # 图像-文本-文本 # 多模态 # 大语言模型 # 推理 # 混合偏好优化

InternVL2-8B-MPO

InternVL2-8B-MPO

InternVL2-8B-MPO是一个多模态大语言模型（MLLM），通过引入混合偏好优化（MPO）过程，增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线，并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面，InternVL2-8B-MPO基于InternVL2-8B初始化，并使用MMPR数据集进行微调，展现出更强的多模态推理能力，且幻觉现象更少。该模型在MathVista上取得了67.0%的准确率，超越InternVL2-8B 8.7个点，且表现接近于大10倍的InternVL2-76B。

数据统计

相关导航

Skywork-o1-Open-Llama-3.1-8B

Skywork-o1-Open-Llama-3.1-8B是由昆仑科技Skywork团队开发的一系列模型，这些模型结合了o1风格的慢思考和推理能力。该系列模型不仅在输出中展现出天生的思考、规划和反思能力，而且在标准基准测试中的推理技能有显著提升。这一系列代表了AI能力的战略进步，将原本较弱的基础模型推向了推理任务的最新技术（SOTA）。

jina-clip-v2

jina-clip-v2是由Jina AI开发的多语言多模态嵌入模型，支持89种语言的图像检索，能够处理512x512分辨率的图像，提供从64到1024不同维度的输出，以适应不同的存储和处理需求。该模型结合了强大的文本编码器Jina-XLM-RoBERTa和视觉编码器EVA02-L14，通过联合训练创建了对齐的图像和文本表示。jina-clip-v2在多模态搜索和检索方面提供了更准确、更易用的能力，特别是在打破语言障碍、提供跨模态理解和检索方面表现出色。

Deepthought-8B

Deepthought-8B是一个小型但功能强大的推理模型，它基于LLaMA-3.1 8B构建，旨在使AI推理更加透明和可控。尽管模型相对较小，但它实现了与更大模型相媲美的复杂推理能力。该模型以其独特的问题解决方法而设计，将其思考过程分解为清晰、独特、有记录的步骤，并将推理过程以结构化的JSON格式输出，便于理解和验证其决策过程。

Pixtral Large

Pixtral Large是Mistral AI推出的一款前沿级多模态AI模型，基于Mistral Large 2构建，具备领先的图像理解能力，能够理解文档、图表和自然图像，同时保持Mistral Large 2在文本理解方面的领先地位。该模型在多模态基准测试中表现优异，特别是在MathVista、ChartQA和DocVQA等测试中超越了其他模型。Pixtral Large在MM-MT-Bench测试中也展现了竞争力，超越了包括Claude-3.5 Sonnet在内的多个模型。该模型适用于研究和教育用途的Mistral Research License (MRL)，以及适用于商业用途的Mistral Commercial License。

DeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Qwen-14B 是 DeepSeek 团队开发的一款基于 Qwen-14B 的蒸馏模型，专注于推理和文本生成任务。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和生成质量，同时降低了计算资源需求。其主要优点包括高性能、低资源消耗和广泛的适用性，适用于需要高效推理和文本生成的场景。

Valley-Eagle-7B

Valley-Eagle-7B是由字节跳动开发的多模态大型模型，旨在处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果，并在OpenCompass测试中展现出与同规模模型相比的卓越性能。Valley-Eagle-7B结合了LargeMLP和ConvAdapter构建投影器，并引入了VisionEncoder，以增强模型在极端场景下的性能。

InternVL2_5-2B

InternVL 2.5 是一个先进的多模态大型语言模型系列，它在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，维持了其核心模型架构。该模型整合了新增量预训练的InternViT与各种预训练的大型语言模型，例如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5 支持多图像和视频数据，具备动态高分辨率训练方法，能够在处理多模态数据时提供更好的性能。

o1-pro

o1-pro 模型是一种先进的人工智能语言模型，专为提供高质量文本生成和复杂推理设计。其在推理和响应准确性上表现优越，适合需要高精度文本处理的应用场景。该模型的定价基于使用的 tokens，输入每百万 tokens 价格为 150 美元，输出每百万 tokens 价格为 600 美元，适合企业和开发者在其应用中集成高效的文本生成能力。

暂无评论

您必须登录才能参与评论！

none

暂无评论...