Los modelos de difusión son una arquitectura de
IA generativa que aprende a generar imágenes, audio o vídeo añadiendo ruido a datos reales y luego entrenándose para revertir este proceso. Es como aprender a restaurar una fotografía dañada paso a paso hasta recuperar la imagen original.
Estos modelos funcionan mediante un proceso de dos fases. Primero, durante el entrenamiento, toman imágenes reales y les añaden ruido gradualmente hasta convertirlas en ruido puro, como si difumináramos progresivamente una fotografía hasta que sea irreconocible. Después, el modelo aprende a hacer el camino inverso: eliminar el ruido paso a paso (proceso llamado denoising) para recuperar imágenes nítidas.
Una vez entrenado, el modelo puede partir de ruido aleatorio y transformarlo gradualmente en una imagen coherente siguiendo las instrucciones que le des mediante
prompts. Es similar a un escultor que parte de un bloque informe y lo va refinando hasta revelar la figura deseada, pero en este caso guiado por descripciones textuales y aplicando denoising progresivo.
Los modelos de difusión han revolucionado la generación de contenido visual y son la base de herramientas populares como Stable Diffusion, DALL-E y Midjourney. Su capacidad para generar contenido de alta calidad y diversidad los ha convertido en estándar para aplicaciones creativas, diseño, edición fotográfica y generación de contenido multimedia. También se están aplicando exitosamente a la generación de audio, vídeo y modelos 3D.
Actualmente son la arquitectura dominante para generación de imágenes, cumpliendo un rol equivalente al de los
transformers en el procesamiento de lenguaje.