Els models de difusió són una arquitectura d'
IA generativa que aprèn a generar imatges, àudio o vídeo afegint soroll a dades reals i després entrenant-se per revertir aquest procés. És com aprendre a restaurar una fotografia danyada pas a pas fins a recuperar la imatge original.
Aquests models funcionen mitjançant un procés de dues fases. Primer, durant l'entrenament, prenen imatges reals i els afegeixen soroll gradualment fins a convertir-les en soroll pur, com si difuminéssim progressivament una fotografia fins que sigui irreconeixible. Després, el model aprèn a fer el camí invers: eliminar el soroll pas a pas (procés anomenat denoising) per recuperar imatges nítides.
Un cop entrenat, el model pot partir de soroll aleatori i transformar-lo gradualment en una imatge coherent seguint les instruccions que li donis mitjançant
prompts. És similar a un escultor que parteix d'un bloc informe i el va refinant fins a revelar la figura desitjada, però en aquest cas guiat per descripcions textuals i aplicant denoising progressiu.
Els models de difusió han revolucionat la generació de contingut visual i són la base d'eines populars com Stable Diffusion, DALL-E i Midjourney. La seva capacitat per generar contingut d'alta qualitat i diversitat els ha convertit en estàndard per a aplicacions creatives, disseny, edició fotogràfica i generació de contingut multimèdia. També s'estan aplicant amb èxit a la generació d'àudio, vídeo i models 3D.
Actualment són l'arquitectura dominant per a la generació d'imatges, complint un rol equivalent al dels
transformers en el processament de llenguatge.