📚 模块1:Transformer之前——RNN的世界及其局限性


课程1.1——2017年之前AI如何理解语言?

想象一下,你想教计算机理解这样一个句子:

"猫跳过了篱笆,因为它看到了一只鸟。"

在2017年之前,理解语言的最流行模型是递归神经网络(RNN)及其改进变体,如LSTM(长短期记忆)GRU(门控递归单元)

这些网络就像一个传送带上的单词:它们按顺序一次处理一个单词,并保持一种"记忆"或"隐藏状态",试图记住之前看到的内容。

🔹 有用的类比:

想象一个人蒙着眼睛读书,每次只能用一个手指触摸一个字母。当他们向前移动时,他们试图在心理上记住到目前为止读到的内容,以理解完整的含义。这很累人,很慢,而且当他们读到结尾时很容易忘记开头!


课程1.2——RNN的基本问题

尽管很受欢迎,RNN有三个主要限制:

1. "长期"问题

当句子很长时,RNN会"忘记"前面的单词。例如:

"在我祖父的农场里,我度过了所有童年的夏天,那里有一只叫托比的狗,它...[20个单词后]...我很想念。"

当模型到达"我很想念"时,它已经失去了与"托比"的联系。这种现象称为梯度消失——技术上很复杂,但概念上:信息随时间"稀释"。

2. 顺序处理=缓慢

由于它只能一次处理一个单词,无法并行化。在拥有数千个核心的GPU上,这是巨大的浪费。就像拥有一辆F1赛车……但被迫用一档行驶!

3. 有限的上下文

RNN只"回头看"。它无法看到下一个单词来更好地理解当前单词。在许多情况下,一个单词的含义取决于后面的内容。

示例:"我去银行存钱..." vs "我去河岸钓鱼..."
只有后续上下文("存钱"或"河")才能揭示指的是哪个"银行"。


课程1.3——2017年发生了什么变化?Transformer的诞生

2017年12月,谷歌研究团队发表了一篇将永远改变AI的论文:

"Attention Is All You Need" — Vaswani等,2017

这篇论文引入了一种全新的架构:Transformer

它的核心思想简单但具有革命性:

"如果我们可以同时读取整个句子,而不是逐字阅读……并允许每个单词'询问'所有其他单词它们与理解自己的相关性如何?"

这就是所谓的注意力机制

就这样,一个新时代诞生了。


课程1.4——为什么Transformer是一个"量子飞跃"?

Transformer解决了RNN的三个主要问题:

完美的长期记忆:
由于它同时处理所有单词,不会出现衰减。每个单词可以"查看"任何其他单词,无论距离多远。

并行处理:
由于不依赖顺序,可以同时处理整个句子。GPU使用率达到100%!

双向上下文(在某些情况下):
每个单词可以看到前面和后面的内容。这允许更精确的消歧。


✍️ 反思练习1.1

想一个长句子,其中开头单词的含义取决于结尾的单词。写下来。然后,想象RNN和Transformer会如何处理它。哪个更容易?为什么?


📊 概念图1.1——RNN vs Transformer(文字描述)

RNN: 
[单词1] → [单词2] → [单词3] → ... → [单词N]
          ↘     ↘     ↘     ...     ↘
        状态 → 状态 → 状态 → ... → 状态

Transformer:
[单词1]  [单词2]  [单词3]  ...  [单词N]
     ↘_________↙_________↘_________↙_________↘
            注意力:所有单词相互交流

🧠 模块1总结

RNN是它们时代的英雄,但有结构性限制。Transformer不仅仅是一个渐进式改进——它是一个范式转变。这一切都要归功于一个看似简单的想法:注意力

在下一个模块中,我们将剖析这个想法:注意力是什么?它是如何工作的?为什么如此强大?


Course Info

Course: AI-course2

Language: ZH

Lesson: Module1