热门

Qwen2.5-Coder-3B-Instruct-GPTQ-Int4

11个月前发布 15 00

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专为代码生成、推理和修复而设计。该模型基于Qwen2.5，扩展了训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等。Qwen2.5-Coder-32B是目前开源代码LLM中的佼佼者，其编码能力与GPT-4o相匹配。此模型为GPTQ-量化的4位指令调优3B参数Qwen2.5...

收录时间：

2025-05-29

打开网站手机查看

文案写作 # GPTQ量化 # 代码修复 # 代码推理 # 代码生成 # 因果语言模型 # 长文本处理

Qwen2.5-Coder-3B-Instruct-GPTQ-Int4

Qwen2.5-Coder-3B-Instruct-GPTQ-Int4

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专为代码生成、推理和修复而设计。该模型基于Qwen2.5，扩展了训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等。Qwen2.5-Coder-32B是目前开源代码LLM中的佼佼者，其编码能力与GPT-4o相匹配。此模型为GPTQ-量化的4位指令调优3B参数Qwen2.5-Coder模型，具有因果语言模型、预训练和后训练阶段、transformers架构等特点。

数据统计

相关导航

EXAONE 3.5

EXAONE 3.5是LG AI Research发布的一系列人工智能模型，这些模型以其卓越的性能和成本效益而著称。它们在模型训练效率、去污染处理、长文本理解和指令遵循能力方面表现出色。EXAONE 3.5模型的开发遵循了LG的AI伦理原则，进行了AI伦理影响评估，以确保模型的负责任使用。这些模型的发布旨在推动AI研究和生态系统的发展，并为AI创新奠定基础。

Hermes 3 – Llama-3.1 70B

Hermes 3是Nous Research公司推出的Hermes系列最新版大型语言模型（LLM），相较于Hermes 2，它在代理能力、角色扮演、推理、多轮对话、长文本连贯性等方面都有显著提升。Hermes系列模型的核心理念是将LLM与用户对齐，赋予终端用户强大的引导能力和控制权。Hermes 3在Hermes 2的基础上，进一步增强了功能调用和结构化输出能力，提升了通用助手能力和代码生成技能。

Qwen2.5-Coder-32B-Instruct-GPTQ-Int8

Qwen2.5-Coder-32B-Instruct-GPTQ-Int8是Qwen系列中针对代码生成优化的大型语言模型，拥有32亿参数，支持长文本处理，是当前开源代码生成领域最先进的模型之一。该模型基于Qwen2.5进行了进一步的训练和优化，不仅在代码生成、推理和修复方面有显著提升，而且在数学和通用能力上也保持了优势。模型采用GPTQ 8-bit量化技术，以减少模型大小并提高运行效率。

AI21-Jamba-Large-1.6

AI21-Jamba-Large-1.6 是由 AI21 Labs 开发的混合 SSM-Transformer 架构基础模型，专为长文本处理和高效推理而设计。该模型在长文本处理、推理速度和质量方面表现出色，支持多种语言，并具备强大的指令跟随能力。它适用于需要处理大量文本数据的企业级应用，如金融分析、内容生成等。该模型采用 Jamba Open Model License 授权，允许在许可条款下进行研究和商业使用。

Qwen2.5-Coder-0.5B-Instruct-GGUF

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5，Qwen2.5-Coder-32B已成为当前最先进的开源代码语言模型，其编码能力与GPT-4o相匹配。该模型在实际应用中，如代码代理等，提供了更全面的基础，不仅增强了编码能力，还保持了在数学和通用能力方面的优势。

ModernBERT-base

ModernBERT-base是一个现代化的双向编码器Transformer模型，预训练于2万亿英文和代码数据，原生支持长达8192个token的上下文。该模型采用了Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention和Unpadding等最新架构改进，使其在长文本处理任务中表现出色。ModernBERT-base适用于需要处理长文档的任务，如检索、分类和大型语料库中的语义搜索。模型训练数据主要为英文和代码，因此可能在其他语言上的表现会有所降低。

DeepSeek提示库

DeepSeek提示库是一个强大的工具，通过提供多种提示词样例，帮助用户快速实现代码生成、改写、解释等功能。它还支持内容分类、结构化输出、文案创作等多种应用场景。该工具的主要优点是高效、灵活且易于使用，能够显著提升工作效率。DeepSeek提示库面向开发者、内容创作者和需要高效工具的用户，提供丰富的功能支持，帮助他们快速解决问题。目前，该产品可能需要付费使用，具体价格需根据官方平台信息确认。

Qwen2.5-Coder-32B

Qwen2.5-Coder-32B是基于Qwen2.5的代码生成模型，拥有32亿参数，是目前开源代码语言模型中参数最多的模型之一。它在代码生成、代码推理和代码修复方面有显著提升，能够处理长达128K tokens的长文本，适用于代码代理等实际应用场景。该模型在数学和通用能力上也保持了优势，支持长文本处理，是开发者在进行代码开发时的强大助手。

暂无评论

您必须登录才能参与评论！

none

暂无评论...