此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

前段时间，一条指出谷歌大脑团队论文《Attention Is All You Need》中 Transformer 构架图与代码不一致的推文引发了大量的讨论。

对于 Sebastian 的这一发现，有人认为属于无心之过，但同时也会令人感到奇怪。毕竟，考虑到 Transformer 论文的流行程度，这个不一致问题早就应该被提及 1000 次。

Sebastian Raschka 在回答网友评论时说，「最最原始」的代码确实与架构图一致，但 2017 年提交的代码版本进行了修改，但同时没有更新架构图。这也是造成「不一致」讨论的根本原因。

随后，Sebastian 在 Ahead of AI 发布文章专门讲述了为什么最初的 Transformer 构架图与代码不一致，并引用了多篇论文简要说明了 Transformer 的发展变化。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

以下为文章原文，让我们一起看看文章到底讲述了什么：

几个月前，我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》，积极的反馈非常鼓舞人心！因此，我添加了一些论文，以保持列表的新鲜感和相关性。

同时，保持列表简明扼要是至关重要的，这样大家就可以用合理的时间就跟上进度。还有一些论文，信息量很大，想来也应该包括在内。

我想分享四篇有用的论文，从历史的角度来理解 Transformer。虽然我只是直接将它们添加到理解大型语言模型的文章中，但我也在这篇文章中单独来分享它们，以便那些之前已经阅读过理解大型语言模型的人更容易找到它们。

On Layer Normalization in the Transformer Architecture (2025)

虽然下图（左）的 Transformer 原始图（https://arxiv.org/abs/1706.03762）是对原始编码器 - 解码器架构的有用总结，但该图有一个小小的差异。例如，它在残差块之间进行了层归一化，这与原始 Transformer 论文附带的官方 (更新后的）代码实现不匹配。下图（中）所示的变体被称为 Post-LN Transformer。

Transformer 架构论文中的层归一化表明，Pre-LN 工作得更好，可以解决梯度问题，如下所示。许多体系架构在实践中采用了这种方法，但它可能导致表征的崩溃。

因此，虽然仍然有关于使用 Post-LN 或前 Pre-LN 的讨论，也有一篇新论文提出了将两个一起应用：《 ResiDual: Transformer with Dual Residual Connections》（https://arxiv.org/abs/2304.14802），但它在实践中是否有用还有待观察。

此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

图注：图源 https://arxiv.org/abs/1706.03762 (左 & 中) and https://arxiv.org/abs/2002.04745 (右）

Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks (1991)

这篇文章推荐给那些对历史花絮和早期方法感兴趣的人，这些方法基本上类似于现代 Transformer。

例如，在比 Transformer 论文早 25 年的 1991 年，Juergen Schmidhuber 提出了一种递归神经网络的替代方案（https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020255afe91c751e5bdaddd8e4922），称为 Fast Weight Programmers (FWP)。实现快速权值变化的另一个神经网络是通过使用梯度下降算法缓慢学习的 FWP 方法中所涉及的前馈神经网络。

这篇博客 (https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2) 将其与现代 Transformer 进行类比，如下所示:

在今天的 Transformer 术语中，FROM 和 TO 分别称为键 (key) 和值 (value)。应用快速网络的输入称为查询。本质上，查询由快速权重矩阵 (fast weight matrix) 处理，它是键和值的外积之和 (忽略归一化和投影)。我们可以使用加法外积或二阶张量积来实现端到端可微的主动控制权值快速变化，因为两个网络的所有操作都支持微分。在序列处理期间，梯度下降可以用于快速调整快速网络，从而应对慢速网络的问题。这在数学上等同于 (除了归一化之外) 后来被称为具有线性化自注意的 Transformer (或线性 Transformer)。

正如上文摘录所提到的，这种方法现在被称为线性 Transformer 或具有线性化自注意的 Transformer。它们来自于 2025 年出现在 arXiv 上的论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》（https://arxiv.org/abs/2006.16236）以及《Rethinking Attention with Performers》（https://arxiv.org/abs/2009.14794）。

2025 年，论文《Linear Transformers Are Secretly Fast Weight Programmers》（https://arxiv.org/abs/2102.11174）明确表明了线性化自注意力和 20 世纪 90 年代的快速权重编程器之间的等价性。

此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

图源：https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

Seede AI

AI 驱动的设计工具

713

查看详情

Universal Language Model Fine-tuning for Text Classification (2018)

这是另一篇从历史角度来看非常有趣的论文。它是在原版《Attention Is All You Need》发布一年后写的，并没有涉及 transformer，而是专注于循环神经网络，但它仍然值得关注。因为它有效地提出了预训练语言模型和迁移学习的下游任务。虽然迁移学习已经在计算机视觉中确立，但在自然语言处理 (NLP) 领域还没有普及。ULMFit（https://arxiv.org/abs/1801.06146）是首批表明预训练语言模型在特定任务上对其进行微调后，可以在许多 NLP 任务中产生 SOTA 结果的论文之一。

ULMFit 建议的语言模型微调过程分为三个阶段:

1. 在大量的文本语料库上训练语言模型；
2. 根据任务特定的数据对预训练的语言模型进行微调，使其能够适应文本的特定风格和词汇；
3. 微调特定任务数据上的分类器，通过逐步解冻各层来避免灾难性遗忘。

在大型语料库上训练语言模型，然后在下游任务上对其进行微调的这种方法，是基于 Transformer 的模型和基础模型 (如 BERT、GPT-2/3/4、RoBERTa 等) 使用的核心方法。

然而，作为 ULMFiT 的关键部分，逐步解冻通常在实践中不进行，因为 Transformer 架构通常一次性对所有层进行微调。

此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

Gopher 是一篇特别好的论文（https://arxiv.org/abs/2112.11446），包括大量的分析来理解 LLM 训练。研究人员在 3000 亿个 token 上训练了一个 80 层的 2800 亿参数模型。其中包括一些有趣的架构修改，比如使用 RMSNorm (均方根归一化) 而不是 LayerNorm (层归一化)。LayerNorm 和 RMSNorm 都优于 BatchNorm，因为它们不局限于批处理大小，也不需要同步，这在批大小较小的分布式设置中是一个优势。RMSNorm 通常被认为在更深的体系架构中会稳定训练。

除了上面这些有趣的花絮之外，本文的主要重点是分析不同规模下的任务性能分析。对 152 个不同任务的评估显示，增加模型大小对理解、事实核查和识别有毒语言等任务最有利，而架构扩展对与逻辑和数学推理相关的任务从益处不大。

此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

图注：图源 https://arxiv.org/abs/2112.11446

以上就是此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处的详细内容，更多请关注其它相关文章！

# 但它 # 大连seo教程如何赚钱 # 五金建材推广网站 # 泰安网站建设及优化 # 优化网站排名口碑 # 白山网页seo # 平利县关键词排名推广 # 关键词排名优化技巧价格 # 宜宾网站建设略奥网络 # 文档模板网站建设公司 # 抚顺seo优化平台 # AI # 所示 # 被称为 # 的人 # 提出了 # 在何处 # 线性化 # 架构图 # 开源 # 递归 # 架构

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2023-06-14

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。