Thinking Machines Lab ha publicado una vista previa de investigación de TML-Interaction-Small, un modelo de interacción diseñado para colaborar con el usuario en tiempo real, sin esperar turnos de conversación.
A diferencia de los modelos de lenguaje actuales, que funcionan por turnos —el usuario escribe o habla, el modelo responde, y el ciclo se repite—, TML-Interaction-Small procesa de forma continua audio, vídeo y texto al mismo tiempo que genera respuestas. Esta arquitectura, a la que Thinking Machines denomina Interaction Models, permite que el sistema interrumpa, haga pausas, reaccione a señales visuales o hable al mismo tiempo que el usuario, de forma similar a como funciona una conversación entre personas.
El modelo trabaja con fragmentos de 200 milisegundos de entrada y salida simultáneas, lo que elimina la necesidad de detectar artificialmente cuándo termina de hablar el usuario para comenzar a responder. Esto permite capacidades que los sistemas actuales no pueden ofrecer sin componentes adicionales: traducción simultánea, corrección de pronunciación en tiempo real o interrupciones espontáneas según el contexto.
La capacidad más diferencial es la proactividad visual: reaccionar a lo que ocurre en pantalla o en cámara sin que el usuario diga nada. En pruebas internas de conteo de repeticiones de ejercicios y localización temporal de acciones en vídeo, los modelos en tiempo real de OpenAI y Google obtuvieron puntuaciones cercanas a cero, mientras TML-Interaction-Small completó las tareas de forma significativa.
Todo el sistema, incluidos los componentes de procesado de audio e imagen, se entrenó desde cero de forma conjunta, sin depender de encoders externos preexistentes.
TML-Interaction-Small es un modelo de tipo MoE (mezcla de expertos) con 276.000 millones de parámetros en total y 12.000 millones activos en cada inferencia. Para las tareas que requieren más razonamiento, delega en un modelo secundario que trabaja en segundo plano de forma asíncrona, mientras el modelo principal sigue activo en la conversación.
En los benchmarks públicos facilitados por Thinking Machines, el modelo supera a los sistemas en tiempo real de OpenAI y Google en métricas de interactividad: obtiene una puntuación de 77,8 en FD-bench v1.5 frente al 47,8 de GPT Realtime 2.0 en modo de alta calidad, y una latencia de respuesta de 0,40 segundos frente a los 1,18 segundos del modelo de OpenAI en modo mínimo. En benchmarks de inteligencia como Audio MultiChallenge, TML-Interaction-Small alcanza un 43,4%, por encima del 37,6% de GPT Realtime 2.0 en modo estándar, aunque por debajo del 48,5% que obtiene ese mismo modelo cuando activa el razonamiento extendido.
Thinking Machines prevé abrir una fase de prueba limitada en los próximos meses y lanzar modelos más grandes a lo largo de 2026.
Empresa de investigación en IA centrada en modelos de frontera, sistemas multimodales y colaboración humano-IA. Publica investigación abierta y desarrolla herramientas de personalización y ...
09/06/2026
Anthropic presenta Claude Fable 5 y Claude Mythos 5, dos versiones de su modelo de mayor capacidad hasta la fecha. Comparten la misma base, pero uno ...
25/05/2026
El papa León XIV publica la primera encíclica dedicada a la inteligencia artificial, en la que fija la dignidad humana como criterio para todo ...
19/05/2026
Rime presenta Coda, un modelo de texto a voz para agentes conversacionales en tiempo real que reproduce el ritmo, las pausas y la entonación propios ...
24/04/2026
DeepSeek lanza en versión preliminar su familia V4, dos modelos de código abierto capaces de procesar hasta un millón de tokens de contexto y ...