Els transformers són una arquitectura d'IA que va revolucionar el processament de dades seqüencials com text, àudio o codi. La seva innovació clau és el mecanisme "d'atenció", que els permet analitzar tots els elements d'una seqüència simultàniament, captant relacions complexes fins i tot entre elements distants.
A diferència de les arquitectures tradicionals per a seqüències (com RNN o LSTM) que processaven informació element per element, els transformers avaluen tots els elements alhora. Això els permet determinar la importància relativa de cada element en relació amb tots els altres.
És com si, en lloc de llegir un text paraula per paraula com feien les xarxes anteriors, poguessin veure tota la pàgina simultàniament i entendre quines paraules estan relacionades entre si, fins i tot si estan separades per molt de text. Aquesta capacitat els permet captar millor el
context complet.
Els transformers són la base de
models de llenguatge com GPT, Gemini, Claude i LLaMA. El seu impacte va més enllà del processament de text, estenent-se a visió per computadora, anàlisi d'àudio, i altres camps on cal captar relacions complexes en les dades.
Actualment, són l'arquitectura dominant per al processament de llenguatge, complint un rol equivalent al dels
Models de difusió en la generació d'imatges.