视觉推理

共 3 篇网址

排序

发布更新浏览点赞

Aya Vision 32B

Aya Vision 32B 是由 Cohere For AI 开发的先进视觉语言模型，拥有 320 亿参数，支持 23 种语言，包括英语、中文、阿拉伯语等。该模型结合了最新的多语言语言模型 Aya Expanse 32B 和 SigLIP2 视觉编码器，通过多模态适配器实现视觉与语言理解的结合。它在视觉语言领域表现出色，能够处理复杂的图像与文本任务，如 OCR、图像描述、视觉推理等。该模型的发布旨在推动多模态研究的普及，其开源权重为全球研究人员提供了强大的工具。该模型遵循 CC-BY-NC 许可证，并需遵守 Cohere For AI 的合理使用政策。

0140

图像生成 # OCR # 图像描述 # 多语言

AlphaMaze-v0.2-1.5B

AlphaMaze 是一个专注于提升大型语言模型（LLM）视觉推理能力的项目。它通过文本形式描述的迷宫任务来训练模型，使其能够理解和规划空间结构。这种方法不仅避免了复杂的图像处理，还通过文本描述直接评估模型的空间理解能力。其主要优点是能够揭示模型如何思考空间问题，而不仅仅是能否解决问题。该模型基于开源框架，旨在推动语言模型在视觉推理领域的研究和发展。

070

学习教育 # 人工智能 # 开源 # 教育

OpenAI o1 API

OpenAI o1 是一个高性能的AI模型，旨在处理复杂的多步骤任务，并提供先进的准确性。它是o1-preview的后继产品，已经用于构建代理应用程序，以简化客户支持、优化供应链决策和预测复杂的金融趋势。o1模型具有生产就绪的关键特性，包括函数调用、结构化输出、开发者消息、视觉能力等。o1-2024-12-17版本在多个基准测试中创下了新的最高成绩，提高了成本效率和性能。

040

生产力 # AI模型 # 函数调用 # 复杂任务处理