热门

Qwen2.5-Turbo

11个月前发布 18 00

Qwen2.5-Turbo是阿里巴巴开发团队推出的一款能够处理超长文本的语言模型，它在Qwen2.5的基础上进行了优化，支持长达1M个token的上下文，相当于约100万英文单词或150万中文字符。该模型在1M-token Passkey Retrieval任务中实现了100%的准确率，并在RULER长文本评估基准测试中得分93.1，超越...

收录时间：

2025-06-02

打开网站手机查看

文案写作 # API兼容 # 低成本 # 长文本处理 # 高性能

Qwen2.5-Turbo

Qwen2.5-Turbo

Qwen2.5-Turbo是阿里巴巴开发团队推出的一款能够处理超长文本的语言模型，它在Qwen2.5的基础上进行了优化，支持长达1M个token的上下文，相当于约100万英文单词或150万中文字符。该模型在1M-token Passkey Retrieval任务中实现了100%的准确率，并在RULER长文本评估基准测试中得分93.1，超越了GPT-4和GLM4-9B-1M。Qwen2.5-Turbo不仅在长文本处理上表现出色，还保持了短文本处理的高性能，且成本效益高，每1M个token的处理成本仅为0.3元。

数据统计

相关导航

Qwen2.5-Coder-3B-Instruct-GPTQ-Int4

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专为代码生成、推理和修复而设计。该模型基于Qwen2.5，扩展了训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等。Qwen2.5-Coder-32B是目前开源代码LLM中的佼佼者，其编码能力与GPT-4o相匹配。此模型为GPTQ-量化的4位指令调优3B参数Qwen2.5-Coder模型，具有因果语言模型、预训练和后训练阶段、transformers架构等特点。

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4是基于Qwen2.5的代码生成大型语言模型，具有32.5亿参数量，支持长文本处理，最大支持128K tokens。该模型在代码生成、代码推理和代码修复方面有显著提升，是当前开源代码语言模型中的佼佼者。它不仅增强了编码能力，还保持了在数学和通用能力方面的优势。

ModernBERT-base

ModernBERT-base是一个现代化的双向编码器Transformer模型，预训练于2万亿英文和代码数据，原生支持长达8192个token的上下文。该模型采用了Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention和Unpadding等最新架构改进，使其在长文本处理任务中表现出色。ModernBERT-base适用于需要处理长文档的任务，如检索、分类和大型语料库中的语义搜索。模型训练数据主要为英文和代码，因此可能在其他语言上的表现会有所降低。

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite 是 Google 推出的高效语言模型，专为长文本处理和复杂任务优化。它在推理、多模态、数学和事实性基准测试中表现出色，具备简化的价格策略，使得百万级上下文窗口更加经济实惠。Gemini 2.0 Flash-Lite 已在 Google AI Studio 和 Vertex AI 中全面开放，适合企业级生产使用。

Aria-Base-64K

Aria-Base-64K是Aria系列的基础模型之一，专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成，经过33B个token（21B多模态，12B语言，69%为长文本）的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调，即使在资源有限的情况下，也可以通过短指令调优数据集进行后训练，并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像，并在语言和多模态场景中保持强大的基础性能。

EXAONE 3.5

EXAONE 3.5是LG AI Research发布的一系列人工智能模型，这些模型以其卓越的性能和成本效益而著称。它们在模型训练效率、去污染处理、长文本理解和指令遵循能力方面表现出色。EXAONE 3.5模型的开发遵循了LG的AI伦理原则，进行了AI伦理影响评估，以确保模型的负责任使用。这些模型的发布旨在推动AI研究和生态系统的发展，并为AI创新奠定基础。

Qwen2.5-Coder-32B-Instruct-GPTQ-Int8

Qwen2.5-Coder-32B-Instruct-GPTQ-Int8是Qwen系列中针对代码生成优化的大型语言模型，拥有32亿参数，支持长文本处理，是当前开源代码生成领域最先进的模型之一。该模型基于Qwen2.5进行了进一步的训练和优化，不仅在代码生成、推理和修复方面有显著提升，而且在数学和通用能力上也保持了优势。模型采用GPTQ 8-bit量化技术，以减少模型大小并提高运行效率。

AI21-Jamba-Large-1.6

AI21-Jamba-Large-1.6 是由 AI21 Labs 开发的混合 SSM-Transformer 架构基础模型，专为长文本处理和高效推理而设计。该模型在长文本处理、推理速度和质量方面表现出色，支持多种语言，并具备强大的指令跟随能力。它适用于需要处理大量文本数据的企业级应用，如金融分析、内容生成等。该模型采用 Jamba Open Model License 授权，允许在许可条款下进行研究和商业使用。

暂无评论

您必须登录才能参与评论！

none

暂无评论...