Llama-3.1-Tulu-3-70B-DPO

3个月前发布 1 00

Llama-3.1-Tulu-3-70B-DPO是Tülu3模型家族的一部分,专为现代后训练技术提供全面指南。该模型家族旨在除了聊天之外的多种任务上实现最先进的性能,如MATH、GSM8K和IFEval。它是基于公开可用的、合成的和人为创建的数据集训练的模型,主要使用英语,并遵循Llama 3.1社区许可协议。

收录时间:
2025-05-29
Llama-3.1-Tulu-3-70B-DPOLlama-3.1-Tulu-3-70B-DPO

Llama-3.1-Tulu-3-70B-DPO是Tülu3模型家族的一部分,专为现代后训练技术提供全面指南。该模型家族旨在除了聊天之外的多种任务上实现最先进的性能,如MATH、GSM8K和IFEval。它是基于公开可用的、合成的和人为创建的数据集训练的模型,主要使用英语,并遵循Llama 3.1社区许可协议。

数据统计

相关导航

DeepScaleR-1.5B-Preview

DeepScaleR-1.5B-Preview

DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型,专注于提升数学问题解决能力。该模型通过分布式强化学习算法,显著提高了在长文本推理场景下的准确率。其主要优点包括高效的训练策略、显著的性能提升以及开源的灵活性。该模型由加州大学伯克利分校的 Sky Computing Lab 和 Berkeley AI Research 团队开发,旨在推动人工智能在教育领域的应用,尤其是在数学教育和竞赛数学领域。模型采用 MIT 开源许可,完全免费供研究人员和开发者使用。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...