热门

Huginn-0125

11个月前发布 13 00

Huginn-0125是一个由马里兰大学帕克分校Tom Goldstein实验室开发的潜变量循环深度模型。该模型拥有35亿参数，经过8000亿个token的训练，在推理和代码生成方面表现出色。其核心特点是通过循环深度结构在测试时动态调整计算量，能够根据任务需求灵活增加或减少计算步骤，从而在保持性能的同时优化资源利用。该模型基于开源的Hug...

收录时间：

2025-05-29

打开网站手机查看

代码辅助 # 人工智能 # 代码生成 # 开源 # 推理 # 深度学习 # 高效计算

Huginn-0125

Huginn-0125

Huginn-0125是一个由马里兰大学帕克分校Tom Goldstein实验室开发的潜变量循环深度模型。该模型拥有35亿参数，经过8000亿个token的训练，在推理和代码生成方面表现出色。其核心特点是通过循环深度结构在测试时动态调整计算量，能够根据任务需求灵活增加或减少计算步骤，从而在保持性能的同时优化资源利用。该模型基于开源的Hugging Face平台发布，支持社区共享和协作，用户可以自由下载、使用和进一步开发。其开源性和灵活的架构使其成为研究和开发中的重要工具，尤其是在资源受限或需要高性能推理的场景中。

数据统计

相关导航

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型，专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下，展现出强大的推理行为，如自我验证、反思和生成长链推理。其主要优点包括高效推理能力、无需预训练即可使用，以及在数学、代码和推理任务上的卓越表现。该模型基于 DeepSeek-V3 架构开发，支持大规模推理任务，适用于研究和商业应用。

Qwen2.5-Coder-0.5B-Instruct-GPTQ-Int8

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5，该系列模型通过增加训练令牌至5.5万亿，包括源代码、文本代码接地、合成数据等，显著提升了代码生成、推理和修复能力。Qwen2.5-Coder-32B已成为当前最先进的开源代码大型语言模型，编码能力与GPT-4o相匹配。此外，Qwen2.5-Coder还为真实世界应用提供了更全面的基础，如代码代理，不仅增强了编码能力，还保持了在数学和通用能力方面的优势。

Agentless

Agentless是一种无需代理的自动解决软件开发问题的方法。它通过定位、修复和补丁验证三个阶段来解决每个问题。Agentless利用分层过程定位故障到特定文件、相关类或函数，以及细粒度的编辑位置。然后，Agentless根据编辑位置采样多个候选补丁，并选择回归测试来运行，生成额外的复现测试以复现原始错误，并使用测试结果重新排名所有剩余补丁，以选择一个提交。Agentless是目前在SWE-bench lite上表现最佳的开源方法，具有82个修复（27.3%的解决率），平均每问题成本0.34美元。

Eurus-2-7B-SFT

Eurus-2-7B-SFT是基于Qwen2.5-Math-7B模型进行微调的大型语言模型，专注于数学推理和问题解决能力的提升。该模型通过模仿学习（监督微调）的方式，学习推理模式，能够有效解决复杂的数学问题和编程任务。其主要优点在于强大的推理能力和对数学问题的准确处理，适用于需要复杂逻辑推理的场景。该模型由PRIME-RL团队开发，旨在通过隐式奖励的方式提升模型的推理能力。

Qwen2.5-Coder-7B

Qwen2.5-Coder-7B是基于Qwen2.5的大型语言模型，专注于代码生成、代码推理和代码修复。它在5.5万亿的训练令牌上进行了扩展，包括源代码、文本代码接地、合成数据等，是目前开源代码语言模型的最新进展。该模型不仅在编程能力上与GPT-4o相匹配，还保持了在数学和一般能力上的优势，并支持长达128K令牌的长上下文。

Solid

Solid是一个快速构建网站的工具，它可以帮助用户快速搭建具有人工智能功能的实用网站。Solid以其生成真实可用的代码而脱颖而出，适用于不同领域的开发需求。

Qwen2.5-Coder-1.5B-Instruct-GGUF

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专为代码生成、代码推理和代码修复而设计。基于强大的Qwen2.5，通过增加训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等，Qwen2.5-Coder-32B已成为当前最先进的开源代码大型语言模型，其编码能力与GPT-4o相匹配。此模型是1.5B参数的指令调优版本，采用GGUF格式，具有因果语言模型、预训练和后训练阶段、transformers架构等特点。

Qwen2.5-Coder-14B-Instruct-AWQ

Qwen2.5-Coder是一系列特定于代码的大型语言模型，覆盖了从0.5亿到32亿参数的不同模型大小，以满足不同开发者的需求。该模型在代码生成、代码推理和代码修复方面有显著提升，基于强大的Qwen2.5，训练令牌扩展到5.5万亿，包括源代码、文本代码基础、合成数据等。Qwen2.5-Coder-32B是目前最先进的开源代码生成大型语言模型，其编码能力与GPT-4o相匹配。此外，该模型还支持长达128K令牌的长上下文，并采用AWQ 4-bit量化技术，以提高模型的效率和性能。

暂无评论

您必须登录才能参与评论！

none

暂无评论...