SomnifexNote

Transformer基础学习笔记

AI摘要：这篇文档介绍了 Transformer 模型的核心原理，旨在取代 RNN 用于序列处理。它阐述了 Transformer 如何利用自注意力机制克服 RNN 在长距离依赖和并行计算上的局限。文章详细拆解了其Encoder-Decoder架构，包括关键组件：词嵌入、位置编码（解决无序性问题）、多头注意力（核心，通过 QKV 计算上下文表示）、前馈网络以及残差连接与层归一化（稳定训练）。同时解释了 Encoder 层和 Decoder 层（含掩码机制）的构造，并提及了最终的线性输出层和 PyTorch 实现要点。

2024-01-16