热门

SmolVLM-256M-Instruct

11个月前发布 25 00

SmolVLM-256M 是由 Hugging Face 开发的多模态模型，基于 Idefics3 架构，专为高效处理图像和文本输入而设计。它能够回答关于图像的问题、描述视觉内容或转录文本，且仅需不到 1GB 的 GPU 内存即可运行推理。该模型在多模态任务上表现出色，同时保持轻量化架构，适合在设备端应用。其训练数据来自 The Caul...

收录时间：

2025-05-29

打开网站手机查看

文案写作 # 图像处理 # 多模态 # 搞笑 # 文本生成 # 轻量化

SmolVLM-256M-Instruct

SmolVLM-256M-Instruct

SmolVLM-256M 是由 Hugging Face 开发的多模态模型，基于 Idefics3 架构，专为高效处理图像和文本输入而设计。它能够回答关于图像的问题、描述视觉内容或转录文本，且仅需不到 1GB 的 GPU 内存即可运行推理。该模型在多模态任务上表现出色，同时保持轻量化架构，适合在设备端应用。其训练数据来自 The Cauldron 和 Docmatix 数据集，涵盖文档理解、图像描述等多领域内容，使其具备广泛的应用潜力。目前该模型在 Hugging Face 平台上免费提供，旨在为开发者和研究人员提供强大的多模态处理能力。

数据统计

相关导航

Llama-3-Patronus-Lynx-70B-Instruct

PatronusAI/Llama-3-Patronus-Lynx-70B-Instruct是一个基于Llama-3架构的大型语言模型，旨在检测在RAG设置中的幻觉问题。该模型通过分析给定的文档、问题和答案，评估答案是否忠实于文档内容。其主要优点在于高精度的幻觉检测能力和强大的语言理解能力。该模型由Patronus AI开发，适用于需要高精度信息验证的场景，如金融分析、医学研究等。该模型目前为免费使用，但具体的商业应用可能需要与开发者联系。

o1-pro

o1-pro 模型是一种先进的人工智能语言模型，专为提供高质量文本生成和复杂推理设计。其在推理和响应准确性上表现优越，适合需要高精度文本处理的应用场景。该模型的定价基于使用的 tokens，输入每百万 tokens 价格为 150 美元，输出每百万 tokens 价格为 600 美元，适合企业和开发者在其应用中集成高效的文本生成能力。

DeepSeek-V3-0324

DeepSeek-V3-0324 是一个先进的文本生成模型，具有 685 亿参数，采用 BF16 和 F32 张量类型，能够支持高效的推理和文本生成。该模型的主要优点在于其强大的生成能力和开放源码的特性，使其可以被广泛应用于多种自然语言处理任务。该模型的定位是为开发者和研究人员提供一个强大的工具，帮助他们在文本生成领域取得突破。

EXAONE-3.5-2.4B-Instruct-AWQ

EXAONE-3.5-2.4B-Instruct-AWQ是由LG AI Research开发的一系列双语（英语和韩语）指令调优生成模型，参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理，并且在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与近期发布的类似大小模型相比，在通用领域保持竞争力。该模型在部署到小型或资源受限设备上进行了优化，并且采用了AWQ量化技术，实现了4位群组权重量化（W4A16g128）。

ultravox-v0_4_1-llama-3_1-70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入，并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景，如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可，由Fixie.ai开发。

c4ai-command-r7b-12-2024

CohereForAI/c4ai-command-r7b-12-2024是一个7B参数的多语言模型，专注于推理、总结、问答和代码生成等高级任务。该模型支持检索增强生成（RAG）和工具使用，能够使用和组合多个工具来完成更复杂的任务。它在企业相关的代码用例上表现优异，支持23种语言。

Dream 7B

Dream 7B 是由香港大学 NLP 组和华为诺亚方舟实验室联合推出的最新扩散大语言模型。它在文本生成领域展现了优异的性能，特别是在复杂推理、长期规划和上下文连贯性等方面。该模型采用了先进的训练方法，具有强大的计划能力和灵活的推理能力，为各类 AI 应用提供了更为强大的支持。

Valley-Eagle-7B

Valley-Eagle-7B是由字节跳动开发的多模态大型模型，旨在处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果，并在OpenCompass测试中展现出与同规模模型相比的卓越性能。Valley-Eagle-7B结合了LargeMLP和ConvAdapter构建投影器，并引入了VisionEncoder，以增强模型在极端场景下的性能。

暂无评论

您必须登录才能参与评论！

none

暂无评论...