Switch Transformers by Google BrainSwitch Transformers是一种用于扩展到万亿参数模型的模型,通过简单和高效的稀疏性实现了对大规模语言模型的训练和预训练加速。