Transformer架构是在2017年提出的,由Google Brain团队的研究员Vaswani等人公开发表了一篇名为“Attention Is All You Need”的论文,以改进序列到序列学习模型的效率和性能,引入了注意力机制并去除了RNN和卷积网络等传统的深度学习结构。Transformer架构在机器翻译和自然语言处理等任务中取得了显著的进展和成功。它被广泛应用和研究,深刻改变了自然语言处理的研究方向和模型结构。