这研究好有意思啊，纯注意力并没那么有用，它会导致秩崩溃 - 2021年3月13日北美华人网存档

4 年多

楼主 (北美华人网)

基于注意力的架构为什么那么有效？近期谷歌等一项研究认为注意力并没有那么有用，它会导致秩崩溃，而网络中的另两个组件则发挥了重要作用：「跳过连接」有效缓解秩崩溃，「多层感知器」能够降低收敛速度。此外，该研究还提出了一种理解自注意力网络的新方式——路径分解。

基于注意力的架构在机器学习领域已经非常普遍，但人们对其有效性原因的理解仍然有限。
最近，来自谷歌和瑞士洛桑联邦理工学院（EPFL）的研究者提出了一种理解自注意力网络的新方式：将网络输出分解为一组较小的项，每个项包括一系列注意力头的跨层操作。基于该分解，研究者证明自注意力具备强大的「token uniformity」归纳偏置。
也就是说，如果没有跳过连接（skip connection）或多层感知器（MLP），其输出将双指数级收敛至秩 1 矩阵。另外，跳过连接和 MLP 还可以阻止输出的衰退。该研究在不同 Transformer 变体上的实验证实了这一收敛现象。

论文地址：https://arxiv.org/pdf/2103.03404v1.pdf 项目地址：https://github.com/twistedcubic/attention-rank-collapse

纯注意力以双指数级速率丢失秩
注意力机制最初旨在更好地学习长程序列知识，在 Transformer 网络中得到了有效使用。之后，基于注意力的架构逐渐渗透到多个机器学习应用领域，如自然语言处理、语音识别和计算机视觉。因此，开发一些工具，来理解 Transformer 和注意力的内在工作机制是非常重要的，这既可以帮助理解现有的模型，又能为未来设计更高效的模型做准备。
该研究对此类网络的操作和归纳偏置提供了新的见解。研究者惊讶地发现纯自注意力网络（SAN）——即不具备跳过连接（skip connection）和多层感知器（MLP）的 Transformer，会损失一部分表达能力，其损失程度与网络深度成双指数级关联。具体而言，研究者证明网络输出以三次方收敛速度收敛至秩 1 矩阵。

研究者利用随机矩阵的特性部分地推导出收敛界限，但其结果超出了想象。利用特殊堆叠自注意力模块的级联效应，研究者发现这类网络的收敛速度比标准理论所描述的快指数级。
此外，尽管之前有研究考虑了单个自注意力矩阵的秩，但该研究认为其结果首次说明了整个网络收敛至秩 1 矩阵的条件。

c

chillywind

4 年多

该研究的主要贡献如下：
系统研究了 Transformer 的构造块，揭示自注意力与其反作用力（跳过连接和 MLP）之间的对抗影响。这揭示了跳过连接在促进优化之外的重要作用。提出一种通过路径分解来分析 SAN 的新方法，发现 SAN 是多个浅层网络的集成。在多个常见 Transformer 架构上进行实验，从而验证其理论。

童

童童童鞋

4 年多

transformer大法好，用就是了。

大

大喜妞

4 年多

华人突然间这么学术了