强化学习

共 27 篇网址

排序

发布更新浏览点赞

NovaSky

NovaSky 是一个专注于提升代码生成和推理模型性能的人工智能技术平台。它通过创新的测试时扩展技术（如 S*）、强化学习蒸馏推理等技术，显著提升了非推理模型的性能，使其在代码生成领域表现出色。该平台致力于为开发者提供高效、低成本的模型训练和优化解决方案，帮助他们在编程任务中实现更高的效率和准确性。NovaSky 的技术背景源于 Sky Computing Lab @ Berkeley，具有强大的学术支持和前沿的技术研究基础。目前，NovaSky 提供多种模型优化方法，包括但不限于推理成本优化和模型蒸馏技术，满足不同开发者的需求。

0200

代码辅助 # 人工智能 # 代码生成 # 强化学习

Coach

Reinforcement Learning Coach是一款强大的Python框架，可以模拟智能体与环境之间的交互，并通过组合不同的构建模块来建模智能体。支持多环境训练，提供多种强化学习算法，收集统计数据并支持高级可视化技术。

0190

商业AI 生产效率 # 强化学习 # 机器学习

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Qwen-32B 是由 DeepSeek 团队开发的高性能语言模型，基于 Qwen-2.5 系列进行蒸馏优化。该模型在多项基准测试中表现出色，尤其是在数学、代码和推理任务上。其主要优点包括高效的推理能力、强大的多语言支持以及开源特性，便于研究人员和开发者进行二次开发和应用。该模型适用于需要高性能文本生成的场景，如智能客服、内容创作和代码辅助等，具有广泛的应用前景。

0170

文案写作 # 多语言支持 # 开源 # 强化学习

SWE-RL

SWE-RL 是由 Facebook Research 提出的一种基于强化学习的大型语言模型推理技术，旨在利用开源软件演变数据提升模型在软件工程任务中的表现。该技术通过规则驱动的奖励机制，优化模型的推理能力，使其能够更好地理解和生成高质量的代码。SWE-RL 的主要优点在于其创新性的强化学习方法和对开源数据的有效利用，为软件工程领域带来了新的可能性。该技术目前处于研究阶段，尚未明确商业化定价，但其在提升开发效率和代码质量方面具有显著潜力。

0170

代码辅助 # 代码生成 # 大型语言模型 # 开源

DeepScaleR-1.5B-Preview

DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型，专注于提升数学问题解决能力。该模型通过分布式强化学习算法，显著提高了在长文本推理场景下的准确率。其主要优点包括高效的训练策略、显著的性能提升以及开源的灵活性。该模型由加州大学伯克利分校的 Sky Computing Lab 和 Berkeley AI Research 团队开发，旨在推动人工智能在教育领域的应用，尤其是在数学教育和竞赛数学领域。模型采用 MIT 开源许可，完全免费供研究人员和开发者使用。

0160

文案写作 # 人工智能 # 开源模型 # 强化学习

Tülu 3

Tülu 3是一系列开源的先进语言模型，它们经过后训练以适应更多的任务和用户。这些模型通过结合专有方法的部分细节、新颖技术和已建立的学术研究，实现了复杂的训练过程。Tülu 3的成功根植于精心的数据管理、严格的实验、创新的方法论和改进的训练基础设施。通过公开分享数据、配方和发现，Tülu 3旨在赋予社区探索新的和创新的后训练方法的能力。

0150

数据分析 # AI # 后训练 # 开源

Gym Retro

Gym Retro是一个用于游戏强化学习研究的平台，提供了超过1000个游戏的环境，支持泛化研究和多种游戏主机。

0150

商业AI 生产效率 # 强化学习 # 游戏

zeroscope_v2_XL

管道标签不在官方列表中

0150

AIGC影视平台 AI视频模型 # 句子相似性 # 可视化问题解答 # 图像分割

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Llama-8B 是 DeepSeek 团队开发的高性能语言模型，基于 Llama 架构并经过强化学习和蒸馏优化。该模型在推理、代码生成和多语言任务中表现出色，是开源社区中首个通过纯强化学习提升推理能力的模型。它支持商业使用，允许修改和衍生作品，适合学术研究和企业应用。

0140

代码辅助 # 代码生成 # 多语言 # 开源

RLLab

rllab是一个用于开发和评估强化学习算法的框架，支持自定义环境的实现和与OpenAI Gym的集成，适用于学术研究和工业应用。

0130

商业AI 生产效率 # 强化学习 # 算法开发

DeepSeek-R1-Distill-Llama-70B

DeepSeek-R1-Distill-Llama-70B 是由 DeepSeek 团队开发的一款大型语言模型，基于 Llama-70B 架构并通过强化学习进行优化。该模型在推理、对话和多语言任务中表现出色，支持多种应用场景，包括代码生成、数学推理和自然语言处理。其主要优点是高效的推理能力和对复杂问题的解决能力，同时支持开源和商业使用。该模型适用于需要高性能语言生成和推理能力的企业和研究机构。

0120

智能聊天机器人 # 代码生成 # 大型语言模型 # 对话

RLLoggingBoard

RLLoggingBoard 是一个专注于强化学习人类反馈（RLHF）训练过程可视化的工具。它通过细粒度的指标监控，帮助研究人员和开发者直观理解训练过程，快速定位问题，并优化训练效果。该工具支持多种可视化模块，包括奖励曲线、响应排序和 token 级别指标等，旨在辅助现有的训练框架，提升训练效率和效果。它适用于任何支持保存所需指标的训练框架，具有高度的灵活性和可扩展性。

0110

代码辅助 # 人工智能 # 可视化 # 强化学习

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型，专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下，展现出强大的推理行为，如自我验证、反思和生成长链推理。其主要优点包括高效推理能力、无需预训练即可使用，以及在数学、代码和推理任务上的卓越表现。该模型基于 DeepSeek-V3 架构开发，支持大规模推理任务，适用于研究和商业应用。

0110

代码辅助 # 开源 # 强化学习 # 推理模型

Kimi k1.5

Kimi k1.5 是由 MoonshotAI 开发的多模态语言模型，通过强化学习和长上下文扩展技术，显著提升了模型在复杂推理任务中的表现。该模型在多个基准测试中达到了行业领先水平，例如在 AIME 和 MATH-500 等数学推理任务中超越了 GPT-4o 和 Claude Sonnet 3.5。其主要优点包括高效的训练框架、强大的多模态推理能力以及对长上下文的支持。Kimi k1.5 主要面向需要复杂推理和逻辑分析的应用场景，如编程辅助、数学解题和代码生成等。

0110

代码辅助 # 多模态 # 强化学习 # 推理

O1-CODER

O1-CODER是一个旨在复现OpenAI的O1模型的项目，专注于编程任务。该项目结合了强化学习(RL)和蒙特卡洛树搜索(MCTS)技术，以增强模型的系统二型思考能力，目标是生成更高效、逻辑性更强的代码。这个项目对于提升编程效率和代码质量具有重要意义，尤其是在需要大量自动化测试和代码优化的场景中。

0110

代码辅助 # 代码生成 # 强化学习 # 编程辅助

RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集，它包含了多种类型的数学问题和相应的解答，用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具，提高学生解决数学问题的能力。产品背景信息显示，该数据集由allenai在Hugging Face平台上发布，包含了GSM8k和MATH两个子集，以及带有可验证约束的IF Prompts，适用于MIT License和ODC-BY license。

0110

数据分析 # AI # 强化学习 # 教育

Deepmind Sparrow AI

Sparrow是一款信息查询对话代理，通过强化学习和人类反馈训练模型，提供更加有帮助、正确和无害的对话服务。它通过分解对话要求为自然语言规则，并提供支持事实性声明的来源证据，使得代理行为更加可靠和可信。

0110

商业AI 客户支持 # 对话代理 # 强化学习

RL4VLM

RL4VLM是一个开源项目，旨在通过强化学习微调大型视觉-语言模型，使其成为能够做出决策的智能代理。该项目由Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine等研究人员共同开发。它基于LLaVA模型，并采用了PPO算法进行强化学习微调。RL4VLM项目提供了详细的代码库结构、入门指南、许可证信息以及如何引用该研究的说明。

0100

销售管理 # 决策制定 # 开源项目 # 强化学习

Steiner-32b-preview

Steiner 是由 Yichao 'Peak' Ji 开发的推理模型系列，专注于通过强化学习在合成数据上训练，能够在推理时探索多种路径并自主验证或回溯。该模型的目标是复现 OpenAI o1 的推理能力，并验证推理时的扩展曲线。Steiner-preview 是一个正在进行中的项目，其开源目的是为了分享知识并获取更多真实用户的反馈。尽管该模型在某些基准测试中表现出色，但尚未完全实现 OpenAI o1 的推理扩展能力，因此仍处于开发阶段。

0100

数据分析 # 合成数据 # 多语言支持 # 开源

DeepCoder

DeepCoder-14B-Preview 是一个基于强化学习的代码推理大型语言模型，能够处理长上下文，具有 60.6% 的通过率，适用于编程任务和自动化代码生成。该模型的优势在于其训练方法的创新，提供了比其他模型更优的性能，且完全开源，支持广泛的社区应用和研究。

0100

代码辅助 # AI # 开源 # 强化学习

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Qwen-7B 是一个经过强化学习优化的推理模型，基于 Qwen-7B 进行了蒸馏优化。它在数学、代码和推理任务上表现出色，能够生成高质量的推理链和解决方案。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和效率，适用于需要复杂推理和逻辑分析的场景。

0100

代码辅助 # 代码生成 # 开源 # 强化学习

CUA

Computer-Using Agent (CUA) 是 OpenAI 开发的一种先进的人工智能模型，结合了 GPT-4o 的视觉能力和通过强化学习的高级推理能力。它能够像人类一样与图形用户界面（GUI）交互，无需依赖特定操作系统的 API 或网络接口。CUA 的灵活性使其能够在多种数字环境中执行任务，如填写表单、浏览网页等。这一技术的出现标志着 AI 发展的下一步，为 AI 在日常工具中的应用开辟了新的可能性。CUA 目前处于研究预览阶段，通过 Operator 提供给美国的 Pro 用户使用。

090

生产力 # AI # 多模态 # 强化学习

HOMIEtele

HOMIE 是一种创新的人形机器人遥操作解决方案，旨在通过强化学习和低成本的外骨骼硬件系统，实现精准的行走与操作任务。该技术的重要性在于它解决了传统遥操作系统的低效性和不稳定性问题，通过人体运动捕捉和强化学习训练框架，使机器人能够更加自然地执行复杂的任务。其主要优点包括高效的任务完成能力、无需复杂的运动捕捉设备以及快速的训练时间。该产品主要面向机器人研究机构、制造业和物流行业，价格未明确公开，但其硬件系统成本较低，具有较高的性价比。

090

生产力 # 人形机器人 # 外骨骼 # 强化学习

GLM-Zero-Preview

GLM-Zero-Preview是智谱首个基于扩展强化学习技术训练的推理模型，专注于增强AI推理能力，擅长处理数理逻辑、代码和需要深度推理的复杂问题。与基座模型相比，在不显著降低通用任务能力的情况下，专家任务能力大幅提升。在AIME 2024、MATH500和LiveCodeBench评测中，效果与OpenAI o1-preview相当。产品背景信息显示，智谱华章科技有限公司致力于通过强化学习技术，提升模型的深度推理能力，未来将推出正式版GLM-Zero，扩展深度思考的能力到更多技术领域。

080

代码辅助 # AI推理 # 强化学习 # 教育工具。

Eurus-2-7B-PRIME

PRIME-RL/Eurus-2-7B-PRIME是一个基于PRIME方法训练的7B参数的语言模型，旨在通过在线强化学习提升语言模型的推理能力。该模型从Eurus-2-7B-SFT开始训练，利用Eurus-2-RL-Data数据集进行强化学习。PRIME方法通过隐式奖励机制，使模型在生成过程中更加注重推理过程，而不仅仅是结果。该模型在多项推理基准测试中表现出色，相较于其SFT版本平均提升了16.7%。其主要优点包括高效的推理能力提升、较低的数据和模型资源需求，以及在数学和编程任务中的优异表现。该模型适用于需要复杂推理能力的场景，如编程问题解答和数学问题求解。

080

文案写作 # 强化学习 # 推理能力 # 数学

DeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Qwen-14B 是 DeepSeek 团队开发的一款基于 Qwen-14B 的蒸馏模型，专注于推理和文本生成任务。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和生成质量，同时降低了计算资源需求。其主要优点包括高性能、低资源消耗和广泛的适用性，适用于需要高效推理和文本生成的场景。

060

文案写作 # 强化学习 # 推理 # 文本生成

Light-R1-14B-DS

Light-R1-14B-DS 是由北京奇虎科技有限公司开发的开源数学模型。该模型基于 DeepSeek-R1-Distill-Qwen-14B 进行强化学习训练，在 AIME24 和 AIME25 数学竞赛基准测试中分别达到了 74.0 和 60.2 的高分，超越了许多 32B 参数量的模型。它在轻量级预算下成功实现了对已经长链推理微调模型的强化学习尝试，为开源社区提供了一个强大的数学模型工具。该模型的开源有助于推动自然语言处理在教育领域的应用，特别是数学问题解决方面，为研究人员和开发者提供了宝贵的研究基础和实践工具。

010

学习教育 # 开源 # 强化学习 # 教育