Los transformers son una arquitectura de IA que revolucionó el procesamiento de datos secuenciales como texto, audio o código. Su innovación clave es el mecanismo de "atención", que les permite analizar todos los elementos de una secuencia simultáneamente, captando relaciones complejas incluso entre elementos distantes.
A diferencia de las arquitecturas tradicionales para secuencias (como RNN o LSTM) que procesaban información elemento por elemento, los transformers evalúan todos los elementos a la vez. Esto les permite determinar la importancia relativa de cada elemento en relación con todos los demás.
Es como si, en lugar de leer un texto palabra por palabra como hacían las redes anteriores, pudieran ver toda la página simultáneamente y entender qué palabras están relacionadas entre sí, incluso si están separadas por mucho texto. Esta capacidad les permite captar mejor el
contexto completo.
Los transformers son la base de
modelos de lenguaje como GPT, Gemini, Claude y LLaMA. Su impacto va más allá del procesamiento de texto, extendiéndose a visión por computadora, análisis de audio, y otros campos donde es necesario captar relaciones complejas en los datos.
Actualmente, son la arquitectura dominante para procesamiento de lenguaje, cumpliendo un rol equivalente al de los
Modelos de difusión en la generación de imágenes.