推理模型

共 9 篇网址

排序

发布更新浏览点赞

s1-32B

s1是一个推理模型，专注于通过少量样本实现高效的文本生成能力。它通过预算强制技术在测试时进行扩展，能够匹配o1-preview的性能。该模型由Niklas Muennighoff等人开发，相关研究发表在arXiv上。模型使用Safetensors技术，具有328亿参数，支持文本生成任务。其主要优点是能够通过少量样本实现高质量的推理，适合需要高效文本生成的场景。

0190

文案写作 # 开源 # 推理模型 # 文本生成

Dolphin R1

Dolphin R1是一个由Cognitive Computations团队创建的数据集，旨在训练类似DeepSeek-R1 Distill模型的推理模型。该数据集包含30万条来自DeepSeek-R1的推理样本、30万条来自Gemini 2.0 flash thinking的推理样本以及20万条Dolphin聊天样本。这些数据集的组合为研究人员和开发者提供了丰富的训练资源，有助于提升模型的推理能力和对话能力。该数据集的创建得到了Dria、Chutes、Crusoe Cloud等多家公司的赞助支持，这些赞助商为数据集的开发提供了计算资源和资金支持。Dolphin R1数据集的发布，为自然语言处理领域的研究和开发提供了重要的基础，推动了相关技术的发展。

0150

智能聊天机器人 # 对话系统 # 推理模型 # 数据集

AlphaOne

AlphaOne（α1）是一种调节大型推理模型（LRMs）在测试时思维进度的通用框架。通过引入 α 时刻和动态安排慢速思维转变，α1 实现了慢速到快速推理的灵活调节。这一方法统一并推广了现有的单调缩放方法，优化了推理能力与计算效率。该产品适用于需要处理复杂推理任务的科研人员和开发者。

0130

数据分析 # 大数据 # 推理模型 # 教育

UIGEN-T1-Qwen-7b

UIGEN-T1-Qwen-7b 是一个专注于 UI 推理生成的大型语言模型。它通过复杂的推理链路方法生成基于 HTML 和 CSS 的 UI 组件，能够为前端开发提供快速的布局生成方案。该模型基于 Qwen2.5-Coder-7B-Instruct 微调而成，专注于基本前端应用的生成，如仪表盘、登录页面和注册表单。其主要优点在于能够快速生成结构化的 HTML/CSS 代码，并通过推理生成符合设计原则的 UI 布局。该模型的主要应用场景是简化前端开发流程，提高开发效率，并为低代码/无代码工具提供支持。

0100

代码辅助 # HTML/CSS # UI生成 # 低代码工具

OpenAI o3-mini

OpenAI o3-mini 是 OpenAI 推出的最新推理模型，专为科学、技术、工程和数学（STEM）领域优化。它在保持低成本和低延迟的同时，提供了强大的推理能力，尤其在数学、科学和编程方面表现出色。该模型支持多种开发者功能，如函数调用、结构化输出等，并且可以根据需求选择不同的推理强度。o3-mini 的推出进一步降低了推理模型的使用成本，使其更适合广泛的应用场景。

0100

代码辅助 # STEM # 人工智能 # 推理模型

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型，专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下，展现出强大的推理行为，如自我验证、反思和生成长链推理。其主要优点包括高效推理能力、无需预训练即可使用，以及在数学、代码和推理任务上的卓越表现。该模型基于 DeepSeek-V3 架构开发，支持大规模推理任务，适用于研究和商业应用。

080

代码辅助 # 开源 # 强化学习 # 推理模型

Steiner-32b-preview

Steiner 是由 Yichao 'Peak' Ji 开发的推理模型系列，专注于通过强化学习在合成数据上训练，能够在推理时探索多种路径并自主验证或回溯。该模型的目标是复现 OpenAI o1 的推理能力，并验证推理时的扩展曲线。Steiner-preview 是一个正在进行中的项目，其开源目的是为了分享知识并获取更多真实用户的反馈。尽管该模型在某些基准测试中表现出色，但尚未完全实现 OpenAI o1 的推理扩展能力，因此仍处于开发阶段。

080

数据分析 # 合成数据 # 多语言支持 # 开源

Open Thoughts

Open Thoughts 是一个由 Bespoke Labs 和 DataComp 社区主导的项目，旨在整理高质量的开源推理数据集，用于训练先进的小模型。该项目汇集了来自斯坦福大学、加州大学伯克利分校、华盛顿大学等多所高校和研究机构的研究人员与工程师，致力于通过优质数据集推动推理模型的发展。其背景是当前推理模型在数学和代码推理等领域的应用需求日益增长，而高质量的数据集是提升模型性能的关键。该项目目前免费开放，主要面向研究人员、开发者以及对推理模型感兴趣的专业人士，其数据集和工具的开源性使其成为推动人工智能教育和研究的重要资源。

080

销售管理 # 人工智能 # 开源数据集 # 推理模型

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Qwen-7B 是一个经过强化学习优化的推理模型，基于 Qwen-7B 进行了蒸馏优化。它在数学、代码和推理任务上表现出色，能够生成高质量的推理链和解决方案。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和效率，适用于需要复杂推理和逻辑分析的场景。

080

代码辅助 # 代码生成 # 开源 # 强化学习