Magma-8B

12个月前发布 21 00

Magma-8B 是微软开发的一款多模态 AI 基础模型,专为研究多模态 AI 代理而设计。它结合了文本和图像输入,能够生成文本输出,并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干,并结合 CLIP-ConvNeXt-XXLarge 视觉编码器,支持从无标签视频数据中学习时空关系,具有强大的泛化能力和多...

收录时间:
2025-05-29
Magma-8BMagma-8B

Magma-8B 是微软开发的一款多模态AI 基础模型,专为研究多模态 AI 代理而设计。它结合了文本和图像输入,能够生成文本输出,并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干,并结合 CLIP-ConvNeXt-XXLarge 视觉编码器,支持从无标签视频数据中学习时空关系,具有强大的泛化能力和多任务适应性。Magma-8B 在多模态任务中表现出色,特别是在空间理解和推理方面。它为多模态 AI 研究提供了强大的工具,推动了虚拟和现实环境中复杂交互的研究。

数据统计

相关导航

iBrief

iBrief

iBrief是一个利用人工智能技术提供文章摘要服务的在线平台。它能够在短时间内为用户提供准确、简洁的文章摘要,帮助用户节省时间,快速了解文章内容。产品的主要优点包括免费使用、即时摘要、支持从任何网页快速获取摘要等。iBrief的背景信息显示,它是一个社区驱动的平台,通过AI技术帮助用户节省阅读时间,提高信息获取效率。产品定位于需要快速了解大量文章内容的用户,如新闻工作者、研究人员和普通读者。
Aria-Base-64K

Aria-Base-64K

Aria-Base-64K是Aria系列的基础模型之一,专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成,经过33B个token(21B多模态,12B语言,69%为长文本)的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调,即使在资源有限的情况下,也可以通过短指令调优数据集进行后训练,并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像,并在语言和多模态场景中保持强大的基础性能。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...