Thinking Machines presenta un model d’IA que processa àudio, vídeo i text en temps real

11/05/2026

Thinking Machines Lab ha publicat una vista prèvia de recerca de TML-Interaction-Small, un model d'interacció dissenyat per col·laborar amb l'usuari en temps real, sense esperar torns de conversa.

Thinking Machines presenta un model d’IA que processa àudio, vídeo i text en temps real

A diferència dels models de llenguatge actuals, que funcionen per torns —l'usuari escriu o parla, el model respon, i el cicle es repeteix—, TML-Interaction-Small processa de forma contínua àudio, vídeo i text al mateix temps que genera respostes. Aquesta arquitectura, que Thinking Machines anomena Interaction Models, permet que el sistema interrompi, faci pauses, reaccioni a senyals visuals o parli al mateix temps que l'usuari, de forma similar a com funciona una conversa entre persones.

El model treballa amb fragments de 200 mil·lisegons d'entrada i sortida simultànies, la qual cosa elimina la necessitat de detectar artificialment quan l'usuari ha acabat de parlar abans de respondre. Això permet capacitats que els sistemes actuals no poden oferir sense components addicionals: traducció simultània, correcció de pronunciació en temps real o interrupcions espontànies segons el context.

La capacitat més diferencial és la proactivitat visual: reaccionar al que passa a la pantalla o a la càmera sense que l'usuari digui res. En proves internes de recompte de repeticions d'exercicis i localització temporal d'accions en vídeo, els models en temps real d'OpenAI i Google van obtenir puntuacions properes a zero, mentre TML-Interaction-Small va completar les tasques de forma significativa.

Tot el sistema, inclosos els components de processament d'àudio i imatge, es va entrenar des de zero de forma conjunta, sense dependre d'encoders externs preexistents.

TML-Interaction-Small és un model de tipus MoE (barreja d'experts) amb 276.000 milions de paràmetres en total i 12.000 milions d'actius per inferència. Per a les tasques que requereixen més raonament, delega en un model secundari que treballa en segon pla de forma asíncrona, mentre el model principal segueix actiu a la conversa.

En els benchmarks públics facilitats per Thinking Machines, el model supera els sistemes en temps real d'OpenAI i Google en mètriques d'interactivitat: obté una puntuació de 77,8 en FD-bench v1.5 davant el 47,8 de GPT Realtime 2.0 en mode d'alta qualitat, i una latència de resposta de 0,40 segons davant els 1,18 segons del model d'OpenAI en mode mínim. En benchmarks d'intel·ligència com Audio MultiChallenge, TML-Interaction-Small assoleix un 43,4%, per sobre del 37,6% de GPT Realtime 2.0 en mode estàndard, tot i que per sota del 48,5% que obté aquest model quan activa el raonament estès.

Thinking Machines preveu obrir una fase de prova limitada en els pròxims mesos i llançar models més grans al llarg del 2026.

Punts clau

  • Thinking Machines llança TML-Interaction-Small, el seu primer model d'interacció en temps real.
  • Processa àudio, vídeo i text de forma simultània, sense torns de conversa.
  • Pot interrompre, reaccionar a senyals visuals o parlar mentre l'usuari parla.
  • La seva capacitat més diferencial: respon al que passa a la càmera sense que se li demani.
  • En benchmarks d'interactivitat, supera els models en temps real d'OpenAI i Google.
  • En intel·ligència, és competitiu amb GPT Realtime en mode estàndard.
  • Per a tasques complexes, delega en un model secundari que treballa en segon pla.
  • Tot el sistema es va entrenar des de zero, sense encoders externs.
  • Es preveu una prova limitada aviat, amb models més grans el 2026.

Vídeos

IA relacionada

Thinking Machines

Laboratori de recerca i desenvolupament d'IA

Empresa de recerca en IA centrada en models de frontera, sistemes multimodals i col·laboració humà-IA. Publica recerca oberta i desenvolupa eines de personalització i adaptació de ...

Últimes noticies

★★★★★
Valora'ns a Google
Aquest lloc web utilitza cookies tècniques, de personalització i anàlisi, pròpies i de tercers, per facilitar la navegació anònima i analitzar estadístiques d’ús del web. Considerem que si continueu navegant, n’accepteu l’ús.