Thinking Machines Lab ha publicat una vista prèvia de recerca de TML-Interaction-Small, un model d'interacció dissenyat per col·laborar amb l'usuari en temps real, sense esperar torns de conversa.
A diferència dels models de llenguatge actuals, que funcionen per torns —l'usuari escriu o parla, el model respon, i el cicle es repeteix—, TML-Interaction-Small processa de forma contínua àudio, vídeo i text al mateix temps que genera respostes. Aquesta arquitectura, que Thinking Machines anomena Interaction Models, permet que el sistema interrompi, faci pauses, reaccioni a senyals visuals o parli al mateix temps que l'usuari, de forma similar a com funciona una conversa entre persones.
El model treballa amb fragments de 200 mil·lisegons d'entrada i sortida simultànies, la qual cosa elimina la necessitat de detectar artificialment quan l'usuari ha acabat de parlar abans de respondre. Això permet capacitats que els sistemes actuals no poden oferir sense components addicionals: traducció simultània, correcció de pronunciació en temps real o interrupcions espontànies segons el context.
La capacitat més diferencial és la proactivitat visual: reaccionar al que passa a la pantalla o a la càmera sense que l'usuari digui res. En proves internes de recompte de repeticions d'exercicis i localització temporal d'accions en vídeo, els models en temps real d'OpenAI i Google van obtenir puntuacions properes a zero, mentre TML-Interaction-Small va completar les tasques de forma significativa.
Tot el sistema, inclosos els components de processament d'àudio i imatge, es va entrenar des de zero de forma conjunta, sense dependre d'encoders externs preexistents.
TML-Interaction-Small és un model de tipus MoE (barreja d'experts) amb 276.000 milions de paràmetres en total i 12.000 milions d'actius per inferència. Per a les tasques que requereixen més raonament, delega en un model secundari que treballa en segon pla de forma asíncrona, mentre el model principal segueix actiu a la conversa.
En els benchmarks públics facilitats per Thinking Machines, el model supera els sistemes en temps real d'OpenAI i Google en mètriques d'interactivitat: obté una puntuació de 77,8 en FD-bench v1.5 davant el 47,8 de GPT Realtime 2.0 en mode d'alta qualitat, i una latència de resposta de 0,40 segons davant els 1,18 segons del model d'OpenAI en mode mínim. En benchmarks d'intel·ligència com Audio MultiChallenge, TML-Interaction-Small assoleix un 43,4%, per sobre del 37,6% de GPT Realtime 2.0 en mode estàndard, tot i que per sota del 48,5% que obté aquest model quan activa el raonament estès.
Thinking Machines preveu obrir una fase de prova limitada en els pròxims mesos i llançar models més grans al llarg del 2026.
Empresa de recerca en IA centrada en models de frontera, sistemes multimodals i col·laboració humà-IA. Publica recerca oberta i desenvolupa eines de personalització i adaptació de ...
09/06/2026
Anthropic presenta Claude Fable 5 i Claude Mythos 5, dues versions del seu model de major capacitat fins ara. Comparteixen la mateixa base, però un ...
25/05/2026
El papa Lleó XIV publica la primera encíclica dedicada a la intel·ligència artificial, en la qual fixa la dignitat humana com a criteri per a tot ...
19/05/2026
Rime presenta Coda, un model de text a veu per a agents conversacionals en temps real que reprodueix el ritme, les pauses i l'entonació propis d'una ...
24/04/2026
DeepSeek llança en versió preliminar la seva família V4, dos models de codi obert capaços de processar fins a un milió de tokens de context i ...