Transformer基础学习笔记

AI摘要:这篇文档介绍了 Transformer 模型的核心原理,旨在取代 RNN 用于序列处理。它阐述了 Transformer 如何利用自注意力机制克服 RNN 在长距离依赖和并行计算上的局限。文章详细拆解了其Encoder-Decoder架构,包括关键组件:词嵌入、位置编码(解决无序性问题)、多头注意力(核心,通过 QKV 计算上下文表示)、前馈网络以及残差连接与层归一化(稳定训练)。同时解释了 Encoder 层和 Decoder 层(含掩码机制)的构造,并提及了最终的线性输出层和 PyTorch 实现要点。