Megrez-3B-Omni
Megrez-3B-Omni是由无问芯穹研发的端侧全模态理解模型,基于大语言模型Megrez-3B-Instruct扩展,具备图片、文本、音频三种模态数据的理解分析能力。该模型在图像理解、语言理解、语音理解方面均取得最优精度,支持中英文语音输入及多轮对话,支持对输入图片的语音提问,根据语音指令直接响应文本,在多项基准任务上取得了领先的结果。
Describe Anything 模型(DAM)能够处理图像或视频的特定区域,并生成详细描述。它的主要优点在于可以通过简单的标记(点、框、涂鸦或掩码)来生成高质量的本地化描述,极大地提升了计算机视觉领域的图像理解能力。该模型由 NVIDIA 和多所大学联合开发,适合用于研究、开发和实际应用中。