Qwen2.5-Coder Technical Report

1年前发布 25 00

Qwen2.5-Coder系列是基于Qwen2.5架构的代码特定模型,包括Qwen2.5-Coder-1.5B和Qwen2.5-Coder-7B两个模型。这些模型在超过5.5万亿个token的大规模语料库上继续预训练,并通过精细的数据清洗、可扩展的合成数据生成和平衡的数据混合,展现出令人印象深刻的代码生成能力,同时保持了通用性。Qwen2...

收录时间:
2025-05-30
Qwen2.5-Coder Technical ReportQwen2.5-Coder Technical Report

Qwen2.5-Coder系列是基于Qwen2.5架构的代码特定模型,包括Qwen2.5-Coder-1.5B和Qwen2.5-Coder-7B两个模型。这些模型在超过5.5万亿个token的大规模语料库上继续预训练,并通过精细的数据清洗、可扩展的合成数据生成和平衡的数据混合,展现出令人印象深刻的代码生成能力,同时保持了通用性。Qwen2.5-Coder在包括代码生成、补全、推理和修复在内的多种代码相关任务上取得了超过10个基准测试的最新性能,并且一致性地超越了同等大小的更大模型。该系列的发布不仅推动了代码智能研究的边界,而且通过其许可授权,鼓励开发者在现实世界的应用中更广泛地采用。

数据统计

相关导航

SWE-RL

SWE-RL

SWE-RL 是由 Facebook Research 提出的一种基于强化学习的大型语言模型推理技术,旨在利用开源软件演变数据提升模型在软件工程任务中的表现。该技术通过规则驱动的奖励机制,优化模型的推理能力,使其能够更好地理解和生成高质量的代码。SWE-RL 的主要优点在于其创新性的强化学习方法和对开源数据的有效利用,为软件工程领域带来了新的可能性。该技术目前处于研究阶段,尚未明确商业化定价,但其在提升开发效率和代码质量方面具有显著潜力。
Huginn-0125

Huginn-0125

Huginn-0125是一个由马里兰大学帕克分校Tom Goldstein实验室开发的潜变量循环深度模型。该模型拥有35亿参数,经过8000亿个token的训练,在推理和代码生成方面表现出色。其核心特点是通过循环深度结构在测试时动态调整计算量,能够根据任务需求灵活增加或减少计算步骤,从而在保持性能的同时优化资源利用。该模型基于开源的Hugging Face平台发布,支持社区共享和协作,用户可以自由下载、使用和进一步开发。其开源性和灵活的架构使其成为研究和开发中的重要工具,尤其是在资源受限或需要高性能推理的场景中。
Qwen2.5-Coder-1.5B-Instruct-GGUF

Qwen2.5-Coder-1.5B-Instruct-GGUF

Qwen2.5-Coder是Qwen大型语言模型的最新系列,专为代码生成、代码推理和代码修复而设计。基于强大的Qwen2.5,通过增加训练令牌至5.5万亿,包括源代码、文本代码基础、合成数据等,Qwen2.5-Coder-32B已成为当前最先进的开源代码大型语言模型,其编码能力与GPT-4o相匹配。此模型是1.5B参数的指令调优版本,采用GGUF格式,具有因果语言模型、预训练和后训练阶段、transformers架构等特点。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...