Transformer-XLTransformer-XL是一种超越固定长度上下文的注意力语言模型,支持单节点多GPU和多主机TPU训练,取得了最新的最佳结果。010商业AI生产效率# 注意力机制# 语言模型