图像分类

共 4 篇网址

排序

发布更新浏览点赞

Google Imagen

Google Imagen是一个研究项目，旨在推动计算机视觉和机器学习的发展。它提供了一个大规模的图像数据库，供研究人员使用和分享。

0470

AI模型框架 AI赋能 # Google Imagen # 人工智能 # 图像优化

SigLIP2

SigLIP2 是谷歌开发的多语言视觉语言编码器，具有改进的语义理解、定位和密集特征。它支持零样本图像分类，能够通过文本描述直接对图像进行分类，无需额外训练。该模型在多语言场景下表现出色，适用于多种视觉语言任务。其主要优点包括高效的语言图像对齐能力、支持多种分辨率和动态分辨率调整，以及强大的跨语言泛化能力。SigLIP2 的推出为多语言视觉任务提供了新的解决方案，尤其适合需要快速部署和多语言支持的场景。

0210

图像生成 # 图像分类 # 多语言 # 视觉语言模型

zeroscope_v2_XL

管道标签不在官方列表中

0210

AIGC影视平台 AI视频模型 # 句子相似性 # 可视化问题解答 # 图像分割

InternViT-300M-448px-V2_5

InternViT-300M-448px-V2_5是一个基于InternViT-300M-448px的增强版本，通过采用ViT增量学习与NTP损失（Stage 1.5），提升了视觉编码器提取视觉特征的能力，尤其是在大规模网络数据集中代表性不足的领域，如多语言OCR数据和数学图表等。该模型是InternViT 2.5系列的一部分，保留了与前代相同的“ViT-MLP-LLM”模型架构，并集成了新的增量预训练的InternViT与各种预训练的LLMs，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。

0140

图像生成 # 图像分类 # 增量学习 # 多模态学习