热门

EXAONE-3.5-2.4B-Instruct-AWQ

7个月前发布 13 00

EXAONE-3.5-2.4B-Instruct-AWQ是由LG AI Research开发的一系列双语（英语和韩语）指令调优生成模型，参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理，并且在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与近期发布的类似大小模型相比，在通用领域保持竞争力。该模型在部署到小型或...

收录时间：

2025-05-29

打开网站手机查看

文案写作 # AWQ量化 # Transformers # 双语模型 # 文本生成 # 长上下文处理

EXAONE-3.5-2.4B-Instruct-AWQ

EXAONE-3.5-2.4B-Instruct-AWQ

EXAONE-3.5-2.4B-Instruct-AWQ是由LG AI Research开发的一系列双语（英语和韩语）指令调优生成模型，参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理，并且在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与近期发布的类似大小模型相比，在通用领域保持竞争力。该模型在部署到小型或资源受限设备上进行了优化，并且采用了AWQ量化技术，实现了4位群组权重量化（W4A16g128）。

数据统计

相关导航

TaoPrompt.com

TaoPrompt是一款专业的AI提示生成工具，能够快速而准确地创建AI提示，帮助用户优化与ChatGPT、Claude、Gemini等AI模型的交互体验。它能够帮助用户节省时间，提高工作效率，适用于各种领域的需求。

Eurus-2-7B-PRIME

PRIME-RL/Eurus-2-7B-PRIME是一个基于PRIME方法训练的7B参数的语言模型，旨在通过在线强化学习提升语言模型的推理能力。该模型从Eurus-2-7B-SFT开始训练，利用Eurus-2-RL-Data数据集进行强化学习。PRIME方法通过隐式奖励机制，使模型在生成过程中更加注重推理过程，而不仅仅是结果。该模型在多项推理基准测试中表现出色，相较于其SFT版本平均提升了16.7%。其主要优点包括高效的推理能力提升、较低的数据和模型资源需求，以及在数学和编程任务中的优异表现。该模型适用于需要复杂推理能力的场景，如编程问题解答和数学问题求解。

INTELLECT-1-Instruct

INTELLECT-1-Instruct是一个由Prime Intellect训练的10亿参数语言模型，从零开始在1万亿个英文文本和代码token上进行训练。该模型支持文本生成，并且具有分布式训练的能力，能够在不可靠的、全球分布的工作者上进行高性能训练。它使用了DiLoCo算法进行训练，并利用自定义的int8 all-reduce内核来减少通信负载，显著降低了通信开销。这个模型的背景信息显示，它是由30个独立的社区贡献者提供计算支持，并在3个大洲的14个并发节点上进行训练。

OLMo-2-1124-13B-SFT

OLMo-2-1124-13B-SFT是由Allen AI研究所开发的一个大型语言模型，经过在特定数据集上的监督微调，旨在提高在多种任务上的表现，包括聊天、数学问题解答、文本生成等。该模型基于Transformers库和PyTorch框架，支持英文，拥有Apache 2.0的开源许可证，适用于研究和教育用途。

llmstxt-generator

llmstxt-generator 是一个用于生成LLM（大型语言模型）训练和推理所需的网站内容整合文本文件的工具。它通过爬取网站内容，将其合并成一个文本文件，支持生成标准的llms.txt和完整的llms-full.txt版本。该工具由firecrawl_dev提供支持进行网页爬取，并使用GPT-4-mini进行文本处理。其主要优点包括无需API密钥即可使用基本功能，同时提供Web界面和API访问，方便用户快速生成所需的文本文件。

BestModelAI

BestModelAI是一款智能AI模型选择工具，能自动从100多个选项中选择最适合的模型，无需用户了解模型复杂性。其主要优点在于智能路由到最佳模型、无需专业知识、使用方便快捷。

CAG

CAG（Cache-Augmented Generation）是一种创新的语言模型增强技术，旨在解决传统RAG（Retrieval-Augmented Generation）方法中存在的检索延迟、检索错误和系统复杂性等问题。通过在模型上下文中预加载所有相关资源并缓存其运行时参数，CAG能够在推理过程中直接生成响应，无需进行实时检索。这种方法不仅显著降低了延迟，提高了可靠性，还简化了系统设计，使其成为一种实用且可扩展的替代方案。随着大型语言模型（LLMs）上下文窗口的不断扩展，CAG有望在更复杂的应用场景中发挥作用。

Llama-3.1-Tulu-3-70B-DPO

Llama-3.1-Tulu-3-70B-DPO是Tülu3模型家族的一部分，专为现代后训练技术提供全面指南。该模型家族旨在除了聊天之外的多种任务上实现最先进的性能，如MATH、GSM8K和IFEval。它是基于公开可用的、合成的和人为创建的数据集训练的模型，主要使用英语，并遵循Llama 3.1社区许可协议。

暂无评论

您必须登录才能参与评论！

none

暂无评论...