Thinking Machines presenta un modelo de IA que procesa audio, vídeo y texto en tiempo real

11/05/2026

Thinking Machines Lab ha publicado una vista previa de investigación de TML-Interaction-Small, un modelo de interacción diseñado para colaborar con el usuario en tiempo real, sin esperar turnos de conversación.

Thinking Machines presenta un modelo de IA que procesa audio, vídeo y texto en tiempo real

A diferencia de los modelos de lenguaje actuales, que funcionan por turnos —el usuario escribe o habla, el modelo responde, y el ciclo se repite—, TML-Interaction-Small procesa de forma continua audio, vídeo y texto al mismo tiempo que genera respuestas. Esta arquitectura, a la que Thinking Machines denomina Interaction Models, permite que el sistema interrumpa, haga pausas, reaccione a señales visuales o hable al mismo tiempo que el usuario, de forma similar a como funciona una conversación entre personas.

El modelo trabaja con fragmentos de 200 milisegundos de entrada y salida simultáneas, lo que elimina la necesidad de detectar artificialmente cuándo termina de hablar el usuario para comenzar a responder. Esto permite capacidades que los sistemas actuales no pueden ofrecer sin componentes adicionales: traducción simultánea, corrección de pronunciación en tiempo real o interrupciones espontáneas según el contexto.

La capacidad más diferencial es la proactividad visual: reaccionar a lo que ocurre en pantalla o en cámara sin que el usuario diga nada. En pruebas internas de conteo de repeticiones de ejercicios y localización temporal de acciones en vídeo, los modelos en tiempo real de OpenAI y Google obtuvieron puntuaciones cercanas a cero, mientras TML-Interaction-Small completó las tareas de forma significativa.

Todo el sistema, incluidos los componentes de procesado de audio e imagen, se entrenó desde cero de forma conjunta, sin depender de encoders externos preexistentes.

TML-Interaction-Small es un modelo de tipo MoE (mezcla de expertos) con 276.000 millones de parámetros en total y 12.000 millones activos en cada inferencia. Para las tareas que requieren más razonamiento, delega en un modelo secundario que trabaja en segundo plano de forma asíncrona, mientras el modelo principal sigue activo en la conversación.

En los benchmarks públicos facilitados por Thinking Machines, el modelo supera a los sistemas en tiempo real de OpenAI y Google en métricas de interactividad: obtiene una puntuación de 77,8 en FD-bench v1.5 frente al 47,8 de GPT Realtime 2.0 en modo de alta calidad, y una latencia de respuesta de 0,40 segundos frente a los 1,18 segundos del modelo de OpenAI en modo mínimo. En benchmarks de inteligencia como Audio MultiChallenge, TML-Interaction-Small alcanza un 43,4%, por encima del 37,6% de GPT Realtime 2.0 en modo estándar, aunque por debajo del 48,5% que obtiene ese mismo modelo cuando activa el razonamiento extendido.

Thinking Machines prevé abrir una fase de prueba limitada en los próximos meses y lanzar modelos más grandes a lo largo de 2026.

Puntos clave

  • Thinking Machines lanza TML-Interaction-Small, su primer modelo de interacción en tiempo real.
  • Procesa audio, vídeo y texto de forma simultánea, sin turnos de conversación.
  • Puede interrumpir, reaccionar a señales visuales o hablar mientras el usuario habla.
  • Su capacidad más diferencial: responde a lo que ocurre en cámara sin que el usuario lo pida.
  • En benchmarks de interactividad, supera a los modelos en tiempo real de OpenAI y Google.
  • En inteligencia, es competitivo con GPT Realtime en modo estándar.
  • Para tareas complejas, delega en un modelo secundario que trabaja en segundo plano.
  • Todo el sistema se entrenó desde cero, sin encoders externos.
  • Prevé una prueba limitada próximamente y modelos más grandes en 2026.

Vídeos

IA relacionada

Thinking Machines

Laboratorio de investigación y desarrollo de IA

Empresa de investigación en IA centrada en modelos de frontera, sistemas multimodales y colaboración humano-IA. Publica investigación abierta y desarrolla herramientas de personalización y ...

Últimas noticias

★★★★★
Valóranos en Google
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.