Thinking Machines Lab a publié un aperçu de recherche de TML-Interaction-Small, un modèle d'interaction conçu pour collaborer avec l'utilisateur en temps réel, sans attendre les tours de conversation.
Contrairement aux modèles de langage actuels, qui fonctionnent en tours —l'utilisateur écrit ou parle, le modèle répond, et le cycle se répète—, TML-Interaction-Small traite en continu l'audio, la vidéo et le texte tout en générant des réponses. Cette architecture, que Thinking Machines appelle Interaction Models, permet au système d'interrompre, de faire des pauses, de réagir à des signaux visuels ou de parler en même temps que l'utilisateur, de manière similaire à une conversation entre personnes.
Le modèle travaille avec des fragments de 200 millisecondes d'entrée et de sortie simultanées, ce qui élimine la nécessité de détecter artificiellement quand l'utilisateur a fini de parler avant de répondre. Cela permet des capacités que les systèmes actuels ne peuvent pas offrir sans composants supplémentaires : traduction simultanée, correction de prononciation en temps réel ou interruptions spontanées selon le contexte.
La capacité la plus distinctive est la proactivité visuelle : réagir à ce qui se passe à l'écran ou à la caméra sans que l'utilisateur dise quoi que ce soit. Lors de tests internes de comptage de répétitions d'exercices et de localisation temporelle d'actions dans des vidéos, les modèles en temps réel d'OpenAI et de Google ont obtenu des scores proches de zéro, tandis que TML-Interaction-Small a accompli les tâches de manière significative.
L'ensemble du système, y compris les composants de traitement audio et image, a été entraîné depuis zéro conjointement, sans dépendre d'encodeurs externes préexistants.
TML-Interaction-Small est un modèle de type MoE (mélange d'experts) avec 276 milliards de paramètres au total et 12 milliards actifs par inférence. Pour les tâches nécessitant plus de raisonnement, il délègue à un modèle secondaire qui fonctionne de manière asynchrone en arrière-plan, tandis que le modèle principal reste actif dans la conversation.
Dans les benchmarks publics fournis par Thinking Machines, le modèle surpasse les systèmes en temps réel d'OpenAI et Google sur les métriques d'interactivité : il obtient un score de 77,8 sur FD-bench v1.5 contre 47,8 pour GPT Realtime 2.0 en mode haute qualité, et une latence de réponse de 0,40 seconde contre 1,18 seconde pour le modèle d'OpenAI en mode minimal. Sur les benchmarks d'intelligence comme Audio MultiChallenge, TML-Interaction-Small atteint 43,4%, au-dessus des 37,6% de GPT Realtime 2.0 en mode standard, bien qu'en dessous des 48,5% que ce modèle atteint avec le raisonnement étendu activé.
Thinking Machines prévoit d'ouvrir un aperçu de recherche limité dans les prochains mois et de lancer des modèles plus grands tout au long de 2026.
Entreprise de recherche en IA spécialisée dans les modèles de frontière, les systèmes multimodaux et la collaboration humain-IA. Publie des travaux en accès ouvert et développe des outils de ...
09/06/2026
...
25/05/2026
Le pape Léon XIV publie la première encyclique consacrée à l'intelligence artificielle, fixant la dignité humaine comme critère de tout ...
19/05/2026
Rime présente Coda, un modèle de synthèse vocale pour agents conversationnels en temps réel qui reproduit le rythme, les pauses et l'intonation ...
24/04/2026
DeepSeek lance en version préliminaire sa famille V4, deux modèles open source capables de traiter jusqu'à un million de tokens de contexte et de ...