零样本分类

共 2 篇网址

排序

发布更新浏览点赞

SigLIP2

SigLIP2 是谷歌开发的多语言视觉语言编码器，具有改进的语义理解、定位和密集特征。它支持零样本图像分类，能够通过文本描述直接对图像进行分类，无需额外训练。该模型在多语言场景下表现出色，适用于多种视觉语言任务。其主要优点包括高效的语言图像对齐能力、支持多种分辨率和动态分辨率调整，以及强大的跨语言泛化能力。SigLIP2 的推出为多语言视觉任务提供了新的解决方案，尤其适合需要快速部署和多语言支持的场景。

0200

图像生成 # 图像分类 # 多语言 # 视觉语言模型

CLaMP 3

CLaMP 3 是一种先进的音乐信息检索模型，通过对比学习对齐乐谱、演奏信号、音频录音与多语言文本的特征，支持跨模态和跨语言的音乐检索。它能够处理未对齐的模态和未见的语言，展现出强大的泛化能力。该模型基于大规模数据集 M4-RAG 训练，涵盖全球多种音乐传统，支持多种音乐检索任务，如文本到音乐、图像到音乐等。

0140

音乐创作 # 多模态 # 多语言 # 对比学习