InternViT-6B-448px-V2_5

InternViT-6B-448px-V2_5

InternViT-6B-448px-V2_5是一个基于InternViT-6B-448px-V1-5的视觉模型,通过使用ViT增量学习与NTP损失(阶段1.5),提升了视觉编码器提取视觉特征的能力,尤其是在大规模网络数据集中代表性不足的领域,如多语言OCR数据和数学图表等。该模型是InternVL 2.5系列的一部分,保留了与前代相同的“ViT-MLP-LLM”模型架构,并集成了新增量预训练的InternViT与各种预训练的LLMs,包括InternLM 2.5和Qwen 2.5,使用随机初始化的MLP投影器。
000
jina-clip-v2

jina-clip-v2

jina-clip-v2是由Jina AI开发的多语言多模态嵌入模型,支持89种语言的图像检索,能够处理512x512分辨率的图像,提供从64到1024不同维度的输出,以适应不同的存储和处理需求。该模型结合了强大的文本编码器Jina-XLM-RoBERTa和视觉编码器EVA02-L14,通过联合训练创建了对齐的图像和文本表示。jina-clip-v2在多模态搜索和检索方面提供了更准确、更易用的能力,特别是在打破语言障碍、提供跨模态理解和检索方面表现出色。
000