InternVL2_5-78B

11个月前发布 23 00

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM),在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,进一步发展而来。该模型系列在视觉感知和多模态能力方面进行了优化,支持包括图像、文本到文本的转换在内的多种功能,适用于需要处理视觉和语言信息的复杂任务。

收录时间:
2025-05-30
InternVL2_5-78BInternVL2_5-78B

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM),在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,进一步发展而来。该模型系列在视觉感知和多模态能力方面进行了优化,支持包括图像、文本到文本的转换在内的多种功能,适用于需要处理视觉和语言信息的复杂任务。

数据统计

相关导航

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ 是由 OpenGVLab 开发的多模态大型语言模型,旨在通过混合偏好优化提升模型的推理能力。该模型在多模态任务中表现出色,能够处理图像和文本之间的复杂关系。它采用了先进的模型架构和优化技术,使其在多模态数据处理方面具有显著优势。该模型适用于需要高效处理和理解多模态数据的场景,如图像描述生成、多模态问答等。其主要优点包括强大的推理能力和高效的模型架构。
Magma-8B

Magma-8B

Magma-8B 是微软开发的一款多模态 AI 基础模型,专为研究多模态 AI 代理而设计。它结合了文本和图像输入,能够生成文本输出,并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干,并结合 CLIP-ConvNeXt-XXLarge 视觉编码器,支持从无标签视频数据中学习时空关系,具有强大的泛化能力和多任务适应性。Magma-8B 在多模态任务中表现出色,特别是在空间理解和推理方面。它为多模态 AI 研究提供了强大的工具,推动了虚拟和现实环境中复杂交互的研究。
InternVL2_5-2B

InternVL2_5-2B

InternVL 2.5 是一个先进的多模态大型语言模型系列,它在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,维持了其核心模型架构。该模型整合了新增量预训练的InternViT与各种预训练的大型语言模型,例如InternLM 2.5和Qwen 2.5,使用随机初始化的MLP投影器。InternVL 2.5 支持多图像和视频数据,具备动态高分辨率训练方法,能够在处理多模态数据时提供更好的性能。
Pixtral Large

Pixtral Large

Pixtral Large是Mistral AI推出的一款前沿级多模态AI模型,基于Mistral Large 2构建,具备领先的图像理解能力,能够理解文档、图表和自然图像,同时保持Mistral Large 2在文本理解方面的领先地位。该模型在多模态基准测试中表现优异,特别是在MathVista、ChartQA和DocVQA等测试中超越了其他模型。Pixtral Large在MM-MT-Bench测试中也展现了竞争力,超越了包括Claude-3.5 Sonnet在内的多个模型。该模型适用于研究和教育用途的Mistral Research License (MRL),以及适用于商业用途的Mistral Commercial License。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...