Transformer中的Self-Attention未引入非线性操作

注意力机制

自注意力的输出与输入的张量形状相同，均为（批量大小batch_size，时间步的数目或词元序列的长度num_step，隐藏层大小hidden_size）。

自注意力机制（Self-Attention）未显式引入非线性操作（如ReLU、Sigmoid等）的主要原因可以归结为以下几点：

自注意力机制的核心功能是建模序列中元素之间的关联性。它通过计算输入元素之间的相似度（点积注意力）来分配注意力权重，再通过加权求和整合全局信息。这一过程本质上是线性组合（线性变换+加权求和），目的是更高效地捕捉长距离依赖和上下文关系。

Transformer模型通过**前馈神经网络（FFN）**显式引入非线性（如ReLU）。FFN通常由两个线性层和一个激活函数构成，紧跟在自注意力层之后，负责对自注意力输出的特征进行非线性变换和增强。

自注意力机制虽然不显式使用激活函数，但其计算过程中包含Softmax归一化操作。Softmax本身是一个非线性函数，能够将注意力分数映射为概率分布。

多头注意力（Multi-Head Attention）通过并行多个独立的注意力头，将输入映射到不同的子空间，再拼接结果。虽然每个头的计算是线性的，但多头的组合相当于隐式引入了多组线性变换的联合表达。

自注意力层的线性操作（矩阵乘法）具有简单的梯度计算规则，若加入非线性激活函数，可能会增加梯度消失或爆炸的风险（如Sigmoid的饱和区）。

自注意力层本身已包含大量参数（如Q/K/V的投影矩阵）。若加入非线性激活函数，可能需要额外增加参数（如全连接层的偏置项），导致模型复杂度上升。

自注意力机制未显式引入非线性操作，是为了更高效地建模全局关联性，而将非线性表达能力交给后续的FFN模块。这种设计实现了以下平衡：

这种分工明确的架构使得Transformer模型在多种任务中表现出色，同时保持了较高的可扩展性。

Machine Learning > Deep Learning

#Attention Detail

Transformer中的Self-Attention未引入非线性操作

https://cosmoliu2002.github.io/posts/self-attn-no-nonlinear/

作者

LiuYu

发布于

2025年3月11日

许可协议