Valley-Eagle-7BValley-Eagle-7B是由字节跳动开发的多模态大型模型,旨在处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果,并在OpenCompass测试中展现出与同规模模型相比的卓越性能。Valley-Eagle-7B结合了LargeMLP和ConvAdapter构建投影器,并引入了VisionEncoder,以增强模型在极端场景下的性能。
SmolVLM2SmolVLM2 是一种轻量级的视频语言模型,旨在通过分析视频内容生成相关的文本描述或视频亮点。该模型具有高效性、低资源消耗的特点,适合在多种设备上运行,包括移动设备和桌面客户端。其主要优点是能够快速处理视频数据并生成高质量的文本输出,为视频内容创作、视频分析和教育等领域提供了强大的技术支持。该模型由 Hugging Face 团队开发,定位为高效、轻量化的视频处理工具,目前处于实验阶段,用户可以免费试用。
InternVL2_5-8BInternVL2_5-8B是由OpenGVLab开发的一款多模态大型语言模型(MLLM),它在InternVL 2.0的基础上进行了显著的训练和测试策略增强,以及数据质量提升。该模型采用'ViT-MLP-LLM'架构,集成了新增量预训练的InternViT与多种预训练语言模型,如InternLM 2.5和Qwen 2.5,使用随机初始化的MLP projector。InternVL 2.5系列模型在多模态任务上展现出卓越的性能,包括图像和视频理解、多语言理解等。
EXAONE-3.5-32B-Instruct-AWQEXAONE-3.5-32B-Instruct-AWQ是LG AI Research开发的一系列指令调优的双语(英语和韩语)生成模型,参数从2.4B到32B不等。这些模型支持长达32K令牌的长上下文处理,在真实世界用例和长上下文理解方面展现出最先进的性能,同时在与最近发布的类似大小模型相比,在通用领域保持竞争力。该模型通过AWQ量化技术,实现了4位组级别的权重量化,优化了模型的部署效率。
Stable Diffusion 3.5 MediumStable Diffusion 3.5 Medium是一个基于文本到图像的生成模型,由Stability AI开发,具有改进的图像质量、排版、复杂提示理解和资源效率。该模型使用了三个固定的预训练文本编码器,通过QK-规范化提高训练稳定性,并在前12个变换层中引入双注意力块。它在多分辨率图像生成、一致性和各种文本到图像任务的适应性方面表现出色。
Aria-Base-64KAria-Base-64K是Aria系列的基础模型之一,专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成,经过33B个token(21B多模态,12B语言,69%为长文本)的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调,即使在资源有限的情况下,也可以通过短指令调优数据集进行后训练,并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像,并在语言和多模态场景中保持强大的基础性能。
InternVL2-8B-MPOInternVL2-8B-MPO是一个多模态大语言模型(MLLM),通过引入混合偏好优化(MPO)过程,增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线,并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面,InternVL2-8B-MPO基于InternVL2-8B初始化,并使用MMPR数据集进行微调,展现出更强的多模态推理能力,且幻觉现象更少。该模型在MathVista上取得了67.0%的准确率,超越InternVL2-8B 8.7个点,且表现接近于大10倍的InternVL2-76B。
Magma-8BMagma-8B 是微软开发的一款多模态 AI 基础模型,专为研究多模态 AI 代理而设计。它结合了文本和图像输入,能够生成文本输出,并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干,并结合 CLIP-ConvNeXt-XXLarge 视觉编码器,支持从无标签视频数据中学习时空关系,具有强大的泛化能力和多任务适应性。Magma-8B 在多模态任务中表现出色,特别是在空间理解和推理方面。它为多模态 AI 研究提供了强大的工具,推动了虚拟和现实环境中复杂交互的研究。