Models de Difusió

Diffusion Models
Els models de difusió són una arquitectura d'IA generativa que aprèn a generar imatges, àudio o vídeo afegint soroll a dades reals i després entrenant-se per revertir aquest procés. És com aprendre a restaurar una fotografia danyada pas a pas fins a recuperar la imatge original.
Aquests models funcionen mitjançant un procés de dues fases. Primer, durant l'entrenament, prenen imatges reals i els afegeixen soroll gradualment fins a convertir-les en soroll pur, com si difuminéssim progressivament una fotografia fins que sigui irreconeixible. Després, el model aprèn a fer el camí invers: eliminar el soroll pas a pas (procés anomenat denoising) per recuperar imatges nítides.

Un cop entrenat, el model pot partir de soroll aleatori i transformar-lo gradualment en una imatge coherent seguint les instruccions que li donis mitjançant prompts. És similar a un escultor que parteix d'un bloc informe i el va refinant fins a revelar la figura desitjada, però en aquest cas guiat per descripcions textuals i aplicant denoising progressiu.

Els models de difusió han revolucionat la generació de contingut visual i són la base d'eines populars com Stable Diffusion, DALL-E i Midjourney. La seva capacitat per generar contingut d'alta qualitat i diversitat els ha convertit en estàndard per a aplicacions creatives, disseny, edició fotogràfica i generació de contingut multimèdia. També s'estan aplicant amb èxit a la generació d'àudio, vídeo i models 3D.

Actualment són l'arquitectura dominant per a la generació d'imatges, complint un rol equivalent al dels transformers en el processament de llenguatge.
Trustpilot
Aquest lloc web utilitza cookies tècniques, de personalització i anàlisi, pròpies i de tercers, per facilitar la navegació anònima i analitzar estadístiques d’ús del web. Considerem que si continueu navegant, n’accepteu l’ús.