📚 Módulo 1: ¿Qué es el Ajuste Fino y Por Qué Es Tan Costoso?

1.1 Definición Conceptual del Ajuste Fino

El ajuste fino es el proceso mediante el cual un modelo de aprendizaje automático, previamente entrenado en una tarea general utilizando un corpus de datos grande (preentrenamiento), se adapta o especializa para una tarea específica mediante entrenamiento adicional en un conjunto de datos más pequeño y específico.

En el contexto de los LLMs, esto significa tomar un modelo como GPT-2, Llama 3, Mistral o Qwen — entrenado con miles de millones de páginas web de texto — y ajustarlo para responder preguntas de soporte técnico, generar descripciones de productos, traducir jerga legal a lenguaje sencillo, o incluso adoptar un tono específico humorístico o formal.

El ajuste fino no comienza desde cero. El modelo ya posee conocimiento general del lenguaje, gramática, razonamiento básico y cierta capacidad inferencial. El ajuste fino "enseña" al modelo a aplicar ese conocimiento de manera específica y contextualizada alineada con un objetivo concreto.

1.2 ¿Por Qué Es Prohibitivo el Ajuste Fino Tradicional?

A pesar de su poder, el ajuste fino completo (full fine-tuning) de los LLMs modernos presenta desafíos técnicos y económicos que lo hacen inviable para la mayoría de desarrolladores, investigadores independientes y pequeñas empresas. Estos desafíos pueden resumirse en tres dimensiones críticas:

a) Requisitos de Memoria (VRAM)

Los LLMs actuales varían en tamaño desde cientos de millones hasta cientos de billones de parámetros. Durante el entrenamiento, cada parámetro debe almacenarse en la memoria de la GPU (VRAM) como un número de punto flotante de 32 bits (FP32) o 16 bits (FP16/BF16). Esto implica:

  • Un modelo de 7 mil millones de parámetros (7B) en FP16 requiere aproximadamente 14 GB solo para almacenar los pesos.
  • Durante el entrenamiento, además de los pesos, también se deben almacenar los gradientes (iguales en tamaño a los pesos) y optimizadores (como Adam, que almacena dos copias adicionales por parámetro: momentum y momentum al cuadrado). Esto triplica o cuadruplica el requisito de memoria.

Por lo tanto, entrenar un modelo de 7B puede requerir fácilmente 56 GB de VRAM o más, necesitando múltiples GPUs de alto rendimiento (por ejemplo, A100 o H100) ejecutándose en paralelo.

b) Costo Computacional y Tiempo de Entrenamiento

Entrenar un LLM completo implica realizar millones de operaciones matemáticas por paso de optimización. Incluso con hardware acelerado, el tiempo de entrenamiento puede extenderse durante días o semanas, dependiendo del conjunto de datos y el tamaño del modelo. Esto se traduce en costos en la nube que pueden exceder cientos o miles de dólares por experimento.

c) Riesgo de Olvido Catastrófico

Cuando todos los parámetros del modelo se actualizan durante el ajuste fino, existe un riesgo significativo de que el modelo "olvide" el conocimiento general adquirido durante el preentrenamiento, especialmente si el conjunto de datos de ajuste fino es pequeño o no representativo del conocimiento general. Este fenómeno, conocido como olvido catastrófico, puede degradar drásticamente el rendimiento del modelo en tareas no relacionadas con la especialización.


Course Info

Course: AI-course3

Language: ES

Lesson: Module1