Modelos de Difusión

Diffusion Models
Los modelos de difusión son una arquitectura de IA generativa que aprende a generar imágenes, audio o vídeo añadiendo ruido a datos reales y luego entrenándose para revertir este proceso. Es como aprender a restaurar una fotografía dañada paso a paso hasta recuperar la imagen original.
Estos modelos funcionan mediante un proceso de dos fases. Primero, durante el entrenamiento, toman imágenes reales y les añaden ruido gradualmente hasta convertirlas en ruido puro, como si difumináramos progresivamente una fotografía hasta que sea irreconocible. Después, el modelo aprende a hacer el camino inverso: eliminar el ruido paso a paso (proceso llamado denoising) para recuperar imágenes nítidas.

Una vez entrenado, el modelo puede partir de ruido aleatorio y transformarlo gradualmente en una imagen coherente siguiendo las instrucciones que le des mediante prompts. Es similar a un escultor que parte de un bloque informe y lo va refinando hasta revelar la figura deseada, pero en este caso guiado por descripciones textuales y aplicando denoising progresivo.

Los modelos de difusión han revolucionado la generación de contenido visual y son la base de herramientas populares como Stable Diffusion, DALL-E y Midjourney. Su capacidad para generar contenido de alta calidad y diversidad los ha convertido en estándar para aplicaciones creativas, diseño, edición fotográfica y generación de contenido multimedia. También se están aplicando exitosamente a la generación de audio, vídeo y modelos 3D.

Actualmente son la arquitectura dominante para generación de imágenes, cumpliendo un rol equivalente al de los transformers en el procesamiento de lenguaje.

Definiciones relacionadas

Trustpilot
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.