注意力机制

共 3 篇网址

排序

发布更新浏览点赞

Transformer-XL

Transformer-XL是一种超越固定长度上下文的注意力语言模型，支持单节点多GPU和多主机TPU训练，取得了最新的最佳结果。

0110

商业AI 生产效率 # 注意力机制 # 语言模型

FlashInfer

FlashInfer是一个专为大型语言模型（LLM）服务而设计的高性能GPU内核库。它通过提供高效的稀疏/密集注意力机制、负载平衡调度、内存效率优化等功能，显著提升了LLM在推理和部署时的性能。FlashInfer支持PyTorch、TVM和C++ API，易于集成到现有项目中。其主要优点包括高效的内核实现、灵活的自定义能力和广泛的兼容性。FlashInfer的开发背景是为了满足日益增长的LLM应用需求，提供更高效、更可靠的推理支持。

0100

代码辅助 # GPU # LLM # 注意力机制

FlexHeadFA

FlexHeadFA 是一个基于 FlashAttention 的改进模型，专注于提供快速且内存高效的精确注意力机制。它支持灵活的头维度配置，能够显著提升大语言模型的性能和效率。该模型的主要优点包括高效利用 GPU 资源、支持多种头维度配置以及与 FlashAttention-2 和 FlashAttention-3 兼容。它适用于需要高效计算和内存优化的深度学习场景，尤其在处理长序列数据时表现出色。

060

生产力 # 内存优化 # 注意力机制 # 深度学习