Thinking Machines présente un modèle d’IA qui traite l’audio, la vidéo et le texte en temps réel

11/05/2026

Thinking Machines Lab a publié un aperçu de recherche de TML-Interaction-Small, un modèle d'interaction conçu pour collaborer avec l'utilisateur en temps réel, sans attendre les tours de conversation.

Thinking Machines présente un modèle d’IA qui traite l’audio, la vidéo et le texte en temps réel


Contrairement aux modèles de langage actuels, qui fonctionnent en tours —l'utilisateur écrit ou parle, le modèle répond, et le cycle se répète—, TML-Interaction-Small traite en continu l'audio, la vidéo et le texte tout en générant des réponses. Cette architecture, que Thinking Machines appelle Interaction Models, permet au système d'interrompre, de faire des pauses, de réagir à des signaux visuels ou de parler en même temps que l'utilisateur, de manière similaire à une conversation entre personnes.

Le modèle travaille avec des fragments de 200 millisecondes d'entrée et de sortie simultanées, ce qui élimine la nécessité de détecter artificiellement quand l'utilisateur a fini de parler avant de répondre. Cela permet des capacités que les systèmes actuels ne peuvent pas offrir sans composants supplémentaires : traduction simultanée, correction de prononciation en temps réel ou interruptions spontanées selon le contexte.

La capacité la plus distinctive est la proactivité visuelle : réagir à ce qui se passe à l'écran ou à la caméra sans que l'utilisateur dise quoi que ce soit. Lors de tests internes de comptage de répétitions d'exercices et de localisation temporelle d'actions dans des vidéos, les modèles en temps réel d'OpenAI et de Google ont obtenu des scores proches de zéro, tandis que TML-Interaction-Small a accompli les tâches de manière significative.

L'ensemble du système, y compris les composants de traitement audio et image, a été entraîné depuis zéro conjointement, sans dépendre d'encodeurs externes préexistants.

TML-Interaction-Small est un modèle de type MoE (mélange d'experts) avec 276 milliards de paramètres au total et 12 milliards actifs par inférence. Pour les tâches nécessitant plus de raisonnement, il délègue à un modèle secondaire qui fonctionne de manière asynchrone en arrière-plan, tandis que le modèle principal reste actif dans la conversation.

Dans les benchmarks publics fournis par Thinking Machines, le modèle surpasse les systèmes en temps réel d'OpenAI et Google sur les métriques d'interactivité : il obtient un score de 77,8 sur FD-bench v1.5 contre 47,8 pour GPT Realtime 2.0 en mode haute qualité, et une latence de réponse de 0,40 seconde contre 1,18 seconde pour le modèle d'OpenAI en mode minimal. Sur les benchmarks d'intelligence comme Audio MultiChallenge, TML-Interaction-Small atteint 43,4%, au-dessus des 37,6% de GPT Realtime 2.0 en mode standard, bien qu'en dessous des 48,5% que ce modèle atteint avec le raisonnement étendu activé.

Thinking Machines prévoit d'ouvrir un aperçu de recherche limité dans les prochains mois et de lancer des modèles plus grands tout au long de 2026.

Points clés

  • Thinking Machines lance TML-Interaction-Small, son premier modèle d'interaction en temps réel.
  • Il traite l'audio, la vidéo et le texte simultanément, sans tours de conversation.
  • Il peut interrompre, réagir à des signaux visuels ou parler pendant que l'utilisateur parle.
  • Sa capacité la plus distinctive : il réagit à ce qui se passe à la caméra sans qu'on le lui demande.
  • Sur les benchmarks d'interactivité, il surpasse les modèles en temps réel d'OpenAI et Google.
  • En intelligence, il est compétitif avec GPT Realtime en mode standard.
  • Pour les tâches complexes, il délègue à un modèle secondaire qui fonctionne en arrière-plan.
  • L'ensemble du système a été entraîné depuis zéro, sans encodeurs externes.
  • Un aperçu limité est prévu prochainement, avec des modèles plus grands en 2026.

Vidéos

IA connexe

Thinking Machines

Laboratoire de recherche et développement en IA

Entreprise de recherche en IA spécialisée dans les modèles de frontière, les systèmes multimodaux et la collaboration humain-IA. Publie des travaux en accès ouvert et développe des outils de ...

Dernières nouvelles

★★★★★
Évaluez-nous sur Google
Ce site utilise des cookies techniques, de personnalisation et d’analyse, propres et tiers, pour faciliter la navigation anonyme et analyser les statistiques d’utilisation du site. Nous considérons que si vous continuez à naviguer, vous acceptez leur utilisation.