Transformer基础学习笔记

AI摘要:这篇文档介绍了 Transformer 模型的核心原理,旨在取代 RNN 用于序列处理。它阐述了 Transformer 如何利用自注意力机制克服 RNN 在长距离依赖和并行计算上的局限。文章详细拆解了其Encoder-Decoder架构,包括关键组件:词嵌入、位置编码(解决无序性问题)、多头注意力(核心,通过 QKV 计算上下文表示)、前馈网络以及残差连接与层归一化(稳定训练)。同时解释了 Encoder 层和 Decoder 层(含掩码机制)的构造,并提及了最终的线性输出层和 PyTorch 实现要点。

cv学习笔记attention

本文介绍了注意力机制在计算机视觉和自然语言处理任务中的应用。首先解释了不使用注意力机制的传统模型存在的问题,如缺乏泛化能力、长期依赖问题、瓶颈问题等。然后分别介绍了在图像描述任务和机器翻译任务中使用注意力机制的方法,说明了注意力机制如何解决传统模型的缺陷。最后介绍了 Transformer 模型及其中的 Self-Attention 机制,指出 Self-Attention 可以有效捕获输入序列中元素之间的相关性,从而避免了 RNN 等时序模型存在的梯度问题。