混合专家模型

共 2 篇网址

排序

发布更新浏览点赞

DeepSeek-VL2-Small

DeepSeek-VL2是一系列先进的大型混合专家(MoE)视觉语言模型，相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等多种任务上展现出卓越的能力。DeepSeek-VL2由三种变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有10亿、28亿和45亿激活参数。DeepSeek-VL2在激活参数相似或更少的情况下，与现有的开源密集型和基于MoE的模型相比，达到了竞争性或最先进的性能。

0180

智能聊天机器人 # 光学字符识别 # 多模态学习 # 文档理解

Tencent-Hunyuan-Large

Tencent-Hunyuan-Large（混元大模型）是由腾讯推出的业界领先的开源大型混合专家（MoE）模型，拥有3890亿总参数和520亿激活参数。该模型在自然语言处理、计算机视觉和科学任务等领域取得了显著进展，特别是在处理长上下文输入和提升长上下文任务处理能力方面表现出色。混元大模型的开源，旨在激发更多研究者的创新灵感，共同推动AI技术的进步和应用。

0110

生产力 # 人工智能 # 开源 # 混合专家模型