Project CodeNet by IBM

11个月前发布 21 00

IBM的Project CodeNet是一个大型数据集,旨在教授AI编码。它包含了超过55种不同编程语言的约14百万个代码样本和约5亿行代码,可以用于AI编码教育、代码翻译和转换、代码分析和优化等应用场景。

收录时间:
2025-06-03
Project CodeNet by IBMProject CodeNet by IBM

IBM的Project CodeNet是一个大型数据集,旨在教授AI编码。它包含了超过55种不同编程语言的约14百万个代码样本和约5亿行代码,可以用于AI编码教育、代码翻译和转换、代码分析和优化等应用场景。

数据统计

相关导航

WorkflowLLM

WorkflowLLM

WorkflowLLM是一个以数据为中心的框架,旨在增强大型语言模型(LLMs)在工作流编排方面的能力。核心是WorkflowBench,这是一个大规模的监督式微调数据集,包含来自83个应用、28个类别的1503个API的106763个样本。WorkflowLLM通过微调Llama-3.1-8B模型,创建了专门针对工作流编排任务优化的WorkflowLlama模型。实验结果表明,WorkflowLlama在编排复杂工作流方面表现出色,并且能够很好地泛化到未见过的API。
RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集,它包含了多种类型的数学问题和相应的解答,用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具,提高学生解决数学问题的能力。产品背景信息显示,该数据集由allenai在Hugging Face平台上发布,包含了GSM8k和MATH两个子集,以及带有可验证约束的IF Prompts,适用于MIT License和ODC-BY license。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...