Imagine que você quer ensinar um computador a entender uma frase como:
"O gato pulou sobre o cercado porque viu um pássaro."
Antes de 2017, os modelos mais populares para entender linguagem eram as Redes Neurais Recorrentes (RNNs) e suas variantes aprimoradas, como as LSTM (Long Short-Term Memory) e as GRU (Gated Recurrent Units).
Essas redes funcionavam como uma esteira transportadora de palavras: processavam uma palavra de cada vez, em ordem, e mantinham uma espécie de "memória" ou "estado oculto" que tentava lembrar o que haviam visto antes.
🔹 Analogia útil:
Pense em uma pessoa lendo um livro de olhos vendados, tocando apenas uma letra de cada vez com um dedo. Enquanto avança, tenta mentalmente lembrar o que leu até agora para entender o significado completo. É exaustivo, lento e facilmente esquece o começo quando chega ao fim!
Apesar da popularidade, as RNNs tinham três grandes limitações:
Quando uma frase é muito longa, a RNN "esquece" as primeiras palavras. Por exemplo:
"Na fazenda do meu avô, onde passei todos os meus verões de criança, havia um cachorro chamado Toby, que... [20 palavras depois]... sinto falta."
Quando o modelo chega a "sinto falta", já perdeu a conexão com "Toby". Este fenômeno é chamado de desvanecimento do gradiente (vanishing gradient) — tecnicamente complexo, mas conceitualmente: a informação se "dilui" com o tempo.
Como só pode processar uma palavra de cada vez, não pode ser paralelizado. Em uma GPU com milhares de núcleos, isso é um desperdício enorme. Como possuir um carro de Fórmula 1… mas ser forçado a dirigir na primeira marcha!
A RNN só "olha para trás". Não pode ver a próxima palavra para entender melhor a atual. Em muitos casos, o significado de uma palavra depende do que vem depois.
Exemplo: "Fui ao banco depositar dinheiro..." vs "Fui ao banco do rio pescar..."
Apenas o contexto posterior ("depositar dinheiro" ou "do rio") revela qual "banco" é.
Em dezembro de 2017, uma equipe de pesquisadores do Google publicou um artigo que mudaria para sempre a IA:
"Attention Is All You Need" — Vaswani et al., 2017
Este artigo introduziu uma arquitetura radicalmente nova: o Transformer.
Sua grande ideia foi simples, mas revolucionária:
"E se, em vez de ler palavra por palavra, lêssemos toda a frase de uma vez… e permitíssemos que cada palavra 'perguntasse' a todas as outras quão relevantes são para entendê-la?"
Isso é o que se chama o mecanismo de atenção.
E com isso, uma nova era nasceu.
O Transformer resolveu os três grandes problemas das RNNs:
✅ Memória de Longo Prazo Perfeita:
Como processa todas as palavras juntas, não há desvanecimento. Cada palavra pode "olhar" para qualquer outra, independentemente da distância.
✅ Processamento Paralelo:
Como não depende da ordem sequencial, toda a frase pode ser processada de uma vez. Utiliza GPUs a 100% de sua capacidade!
✅ Contexto Bidirecional (em alguns casos):
Cada palavra pode ver tanto o que veio antes quanto o que vem depois. Isso permite uma desambiguação muito mais precisa.
Pense em uma frase longa onde o significado de uma palavra no começo dependa de uma palavra no fim. Escreva-a. Depois, imagine como uma RNN e um Transformer a processariam. Qual teria mais facilidade? Por quê?
RNN:
[Palavra 1] → [Palavra 2] → [Palavra 3] → ... → [Palavra N]
↘ ↘ ↘ ... ↘
Estado → Estado → Estado → ... → Estado
Transformer:
[Palavra 1] [Palavra 2] [Palavra 3] ... [Palavra N]
↘_________↙_________↘_________↙_________↘
ATENÇÃO: Todas as palavras se comunicam entre si
As RNNs foram as heroínas de sua época, mas tinham limitações estruturais. O Transformer não foi apenas um aprimoramento incremental — foi uma mudança de paradigma. E tudo graças a uma ideia aparentemente simples: atenção.
No próximo módulo, vamos desmontar essa ideia: O que é atenção? Como funciona? Por que é tão poderosa?