视觉语言模型

共 10 篇网址

排序

发布更新浏览点赞

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代，代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频，为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外，Qwen2-VL还支持多语言，除了英语和中文，还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE)，增强了其多模态处理能力。

0310

文案写作 # 多模态 # 多语言支持 # 文本生成

vision-parse

vision-parse是一个利用视觉语言模型（Vision LLMs）将PDF文档解析为格式化良好的Markdown内容的工具。它支持多种模型，包括OpenAI、LLama和Gemini等，能够智能识别和提取文本及表格，并保持文档的层级结构、样式和缩进。该工具的主要优点包括高精度的内容提取、格式保持、支持多模型以及本地模型托管，适用于需要高效文档处理的用户。

0210

办公助手 # Markdown转换 # PDF解析 # 文档处理

POINTS-Qwen-2-5-7B-Chat

POINTS-Qwen-2-5-7B-Chat是一个集成了视觉语言模型最新进展和新技巧的模型，由微信AI的研究人员提出。它通过预训练数据集筛选、模型汤等技术，显著提升了模型性能。这个模型在多个基准测试中表现优异，是视觉语言模型领域的一个重要进步。

0140

文案写作 # 图像文本到文本 # 多模态 # 对话系统

Ollama OCR for web

ollama-ocr是一个基于ollama的光学字符识别（OCR）模型，能够从图像中提取文本。它利用先进的视觉语言模型，如LLaVA、Llama 3.2 Vision和MiniCPM-V 2.6，提供高精度的文本识别。该模型对于需要从图片中获取文本信息的场景非常有用，如文档扫描、图像内容分析等。它开源免费，易于集成到各种项目中。

0140

文案写作 # OCR # 图像识别 # 开源

SigLIP2

SigLIP2 是谷歌开发的多语言视觉语言编码器，具有改进的语义理解、定位和密集特征。它支持零样本图像分类，能够通过文本描述直接对图像进行分类，无需额外训练。该模型在多语言场景下表现出色，适用于多种视觉语言任务。其主要优点包括高效的语言图像对齐能力、支持多种分辨率和动态分辨率调整，以及强大的跨语言泛化能力。SigLIP2 的推出为多语言视觉任务提供了新的解决方案，尤其适合需要快速部署和多语言支持的场景。

0130

图像生成 # 图像分类 # 多语言 # 视觉语言模型

Aquila-VL-2B-llava-qwen

Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型（VLM），选用Qwen2.5-1.5B-instruct模型作为语言模型（LLM），并使用siglip-so400m-patch14-384作为视觉塔。该模型在自建的Infinity-MM数据集上进行训练，包含约4000万图像-文本对。该数据集结合了从互联网收集的开源数据和使用开源VLM模型生成的合成指令数据。Aquila-VL-2B模型的开源，旨在推动多模态性能的发展，特别是在图像和文本的结合处理方面。

0110

文案写作 # 图像识别 # 多模态 # 文本生成

DeepSeek-VL2

DeepSeek-VL2是一系列大型Mixture-of-Experts视觉语言模型，相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等任务上展现出卓越的能力。DeepSeek-VL2包含三个变体：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有1.0B、2.8B和4.5B激活参数。DeepSeek-VL2在激活参数相似或更少的情况下，与现有的开源密集和MoE基础模型相比，达到了竞争性或最先进的性能。

0100

智能聊天机器人 # Mixture-of-Experts # 光学字符识别 # 多模态理解

Florence-VL

Florence-VL是一个视觉语言模型，通过引入生成式视觉编码器和深度广度融合技术，增强了模型对视觉和语言信息的处理能力。该技术的重要性在于其能够提升机器对图像和文本的理解，进而在多模态任务中取得更好的效果。Florence-VL基于LLaVA项目进行开发，提供了预训练和微调的代码、模型检查点和演示。

090

图像生成 # 图像识别 # 多模态学习 # 深度学习

CheXagent

CheXagent是一个基于视觉语言基础模型的胸部X光解读工具。它利用临床大型语言模型来解析放射学报告，视觉编码器用于表示X光图像，并设计了一个网络来桥接视觉和语言模态。此外，CheXagent还引入了CheXbench，一个旨在系统评估基于视觉语言基础模型在8个临床相关的胸部X光解读任务上的性能的新型基准。经过广泛的定量评估和与五名专家放射科医生的定性评审，CheXagent在CheXbench任务上的表现优于先前开发的通用和医学领域的基础模型。

070

医疗健康 # 医学影像 # 医疗 # 放射学

DeepSeek-VL2-Tiny

DeepSeek-VL2是一系列先进的大型混合专家（MoE）视觉语言模型，相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解、视觉定位等多项任务中展现出卓越的能力。DeepSeek-VL2由三种变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有1.0B、2.8B和4.5B激活参数。DeepSeek-VL2在激活参数相似或更少的情况下，与现有的开源密集型和基于MoE的模型相比，达到了竞争性或最先进的性能。

010

图像生成 # 图像识别 # 多模态理解 # 混合专家