文本数据集

共 2 篇网址

排序

发布更新浏览点赞

tulu-3-sft-olmo-2-mixture

allenai/tulu-3-sft-olmo-2-mixture是一个大规模的多语言数据集，包含了用于训练和微调语言模型的多样化文本样本。该数据集的重要性在于它为研究人员和开发者提供了丰富的语言资源，以改进和优化多语言AI模型的性能。产品背景信息包括其由多个来源的数据混合而成，适用于教育和研究领域，且遵循特定的许可协议。

0100

文案写作 # 多语言 # 教育 # 文本数据集

OLMo 2 1124 7B Preference Mixture

OLMo 2 1124 7B Preference Mixture 是一个大规模的文本数据集，由 Hugging Face 提供，包含366.7k个生成对。该数据集用于训练和微调自然语言处理模型，特别是在偏好学习和用户意图理解方面。它结合了多个来源的数据，包括SFT混合数据、WildChat数据以及DaringAnteater数据，覆盖了广泛的语言使用场景和用户交互模式。

060

文案写作 # 偏好学习 # 文本数据集 # 机器学习