📚 Módulo 1: O que é Ajuste Fino e Por Que É Tão Caro?

1.1 Definição Conceitual do Ajuste Fino

O ajuste fino é o processo pelo qual um modelo de aprendizado de máquina, previamente treinado em uma tarefa geral usando um grande corpus de dados (pré-treinamento), é adaptado ou especializado para uma tarefa específica através de treinamento adicional em um conjunto de dados menor e direcionado.

No contexto dos LLMs, isso significa pegar um modelo como GPT-2, Llama 3, Mistral ou Qwen — treinado em bilhões de páginas da web de texto — e ajustá-lo para responder perguntas de suporte técnico, gerar descrições de produtos, traduzir jargão jurídico para linguagem simples, ou até adotar um tom específico, humorístico ou formal.

O ajuste fino não começa do zero. O modelo já possui conhecimento geral de linguagem, gramática, raciocínio básico e alguma capacidade inferencial. O ajuste fino "ensina" o modelo a aplicar esse conhecimento de maneira específica e contextualizada alinhada com um objetivo concreto.

1.2 Por Que o Ajuste Fino Tradicional é Proibitivo?

Apesar do seu poder, o ajuste fino completo (full fine-tuning) dos LLMs modernos apresenta desafios técnicos e econômicos que o tornam inviável para a maioria dos desenvolvedores, pesquisadores independentes e pequenas empresas. Esses desafios podem ser resumidos em três dimensões críticas:

a) Requisitos de Memória (VRAM)

Os LLMs atuais variam em tamanho de centenas de milhões a centenas de bilhões de parâmetros. Durante o treinamento, cada parâmetro deve ser armazenado na memória da GPU (VRAM) como um número de ponto flutuante de 32 bits (FP32) ou 16 bits (FP16/BF16). Isso implica:

  • Um modelo de 7 bilhões de parâmetros (7B) em FP16 requer aproximadamente 14 GB apenas para armazenar os pesos.
  • Durante o treinamento, além dos pesos, gradientes (iguais em tamanho aos pesos) e otimizadores (como Adam, que armazena duas cópias adicionais por parâmetro: momentum e momentum ao quadrado) também devem ser armazenados. Isso triplica ou quadruplica o requisito de memória.

Assim, treinar um modelo de 7B pode facilmente requerer 56 GB de VRAM ou mais, necessitando de múltiplas GPUs de alto desempenho (por exemplo, A100 ou H100) executando em paralelo.

b) Custo Computacional e Tempo de Treinamento

Treinar um LLM completo envolve realizar milhões de operações matemáticas por passo de otimização. Mesmo com hardware acelerado, o tempo de treinamento pode se estender por dias ou semanas, dependendo do conjunto de dados e do tamanho do modelo. Isso se traduz em custos na nuvem que podem exceder centenas ou milhares de dólares por experimento.

c) Risco de Esquecimento Catastrófico

Quando todos os parâmetros do modelo são atualizados durante o ajuste fino, há um risco significativo de que o modelo "esqueça" o conhecimento geral adquirido durante o pré-treinamento, especialmente se o conjunto de dados de ajuste fino for pequeno ou não representativo do conhecimento geral. Esse fenômeno, conhecido como esquecimento catastrófico, pode degradar drasticamente o desempenho do modelo em tarefas não relacionadas à especialização.


Course Info

Course: AI-course3

Language: PT

Lesson: Module1