图像文本到文本

共 2 篇网址

排序

发布更新浏览点赞

POINTS-Qwen-2-5-7B-Chat

POINTS-Qwen-2-5-7B-Chat是一个集成了视觉语言模型最新进展和新技巧的模型，由微信AI的研究人员提出。它通过预训练数据集筛选、模型汤等技术，显著提升了模型性能。这个模型在多个基准测试中表现优异，是视觉语言模型领域的一个重要进步。

0140

文案写作 # 图像文本到文本 # 多模态 # 对话系统

Ferret-UI-Llama8b

Ferret-UI是首个以用户界面为中心的多模态大型语言模型（MLLM），专为指代表达、定位和推理任务设计。它基于Gemma-2B和Llama-3-8B构建，能够执行复杂的用户界面任务。这个版本遵循了Apple的研究论文，是一个强大的工具，可以用于图像文本到文本的任务，并且在对话和文本生成方面具有优势。

0110

文案写作 # 图像文本到文本 # 多模态 # 大型语言模型