长上下文处理

共 3 篇网址

排序

发布更新浏览点赞

EXAONE-3.5-2.4B-Instruct-GGUF

EXAONE-3.5-2.4B-Instruct-GGUF是由LG AI Research开发的一系列双语（英语和韩语）指令调优的生成型模型，参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理，并在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与近期发布的类似大小模型相比，在通用领域保持竞争力。该模型的重要性在于其优化了在小型或资源受限设备上的部署，同时提供了强大的性能。

010

文案写作 # 双语模型 # 指令调优 # 文本生成

MiniMax-Text-01

MiniMax-Text-01是一个由MiniMaxAI开发的大型语言模型，拥有4560亿总参数，其中每个token激活459亿参数。它采用了混合架构，结合了闪电注意力、softmax注意力和专家混合（MoE）技术，通过先进的并行策略和创新的计算-通信重叠方法，如线性注意力序列并行主义加（LASP+）、变长环形注意力、专家张量并行（ETP）等，将训练上下文长度扩展到100万token，并能在推理时处理长达400万token的上下文。在多个学术基准测试中，MiniMax-Text-01展现出了顶级模型的性能。

000

文案写作 # 并行策略 # 文本生成 # 混合架构