什么是 Transformer

今天看到一个3年多前（2022年3月） IBM 科技频道介绍 Transformer 的科普视频。那时候 ChatGPT-3.5 还没有发布，大语言模型还是一个十分新鲜的事物。不知道当时的人，是否会想到，这项看起来并没有什么特殊的技术，在不久之后改变了整个世界。

2017 年，Google 发布了《Attention Is All You Need》（注意力就是你所需要的一切）。这篇论文首次提出了完全基于注意力机制（attention mechanism）、摒弃了传统循环神经网络（RNN）和卷积神经网络（CNN）的 Transformer 架构。这篇论文的发表彻底改变了自然语言处理（NLP）领域，并成为后续许多大型语言模型（如 GPT、BERT、PaLM 等）的基础架构。

在此之前，翻译、聊天机器人、语音识别，主流方案是 RNN。它的思路比较直接。就像人读句子一样，从头读到尾，每次记住点信息，然后继续往后传。但问题也很明显，记忆力是有限的，句子一长，前面说了啥，后面就忘了，而且处理起来效率也很低。

Transformer 的出现直接把这套做法给颠覆了。它抛弃了 “按顺序一行行处理”，改成 “把所有内容同时拿到台面上分析”。关键就在于它的 “注意力机制” 简单说，就是让模型自己判断，句子里哪些词之间关系密切，哪些是无关紧要的背景。比如，在 “香蕉为什么过马路”这句话里，模型会发现 “香蕉” 和 “过马路” 关系最直接，“为什么” 只是用来提问的。

这种机制的好处，就是不管句子有多长，模型都能灵活地抓住重点。这有点像，你一边刷手机一边和朋友聊天，脑子会自动记住重要的信息，过滤掉次要的内容。Transformer 就是这种 “聪明的脑子”。

在论文中，Transformer 包含编码器和解码器两部分。编码器负责把输入内容 “压缩” 成复杂的向量表示，解码器则负责把这些信息 “翻译” 成目标输出。两者之间通过交叉注意力机制传递信息。

但后续的模型根据不同任务做了变化，例如 GPT 系列模型采用纯解码器架构，专注于根据上文生成下文。BERT 采用纯编码器架构，专注于理解和表示文本。T5 等模型保留了完整的编码器-解码器结构，适合翻译、摘要等任务。

另一个厉害的地方，就是训练方式。Transformer 会先通过无监督预训练，也就是在海量的没有答案的数据上 “自学”，自己看文本，自己琢磨规律。等掌握了一定的规律，再采用监督学习，用少量“带答案” 的数据给它 “补课”，让它专攻某个任务。这样一来，不仅学得快，还能举一反三。

为什么 Transformer 这么重要？一是它能并行处理，速度比老方法快很多，训练大模型时优势特别明显。二是它对长文本、复杂结构的理解力更强。三是迁移能力好，同一套方法，不管文本、图片、音频，都能用。现在最强的语言模型、图像生成工具，背后几乎都有 Transformer 。

当然，Transformer 也不是万能的。它需要大量数据和算力，训练成本高，对普通个人用户来说有点遥远。但它确实极大推动了 AI 的发展，让机器的 “理解力” 和 “表达力” 跃上了一个新台阶。

相关文章

如何用 AI 零门槛复刻月入万刀的无人出镜频道

Google 为何要开发 Gemma 4 模型

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

评论区