Hume AI llança TADA, un sistema de veu de codi obert ràpid que elimina les al·lucinacions

10/03/2026

Hume AI publica TADA sota llicència open source, un sistema de conversió de text a veu que sincronitza text i àudio per eliminar errors de contingut i multiplicar per cinc la velocitat dels sistemes actuals.

Hume AI llança TADA, un sistema de veu de codi obert ràpid que elimina les al·lucinacions

Hume AI ha fet públic TADA (Text-Acoustic Dual Alignment), un sistema de generació de veu que aborda un dels problemes més freqüents en els models actuals basats en grans models de llenguatge: la desincronització entre com es representa el text i com es representa l'àudio.

Els sistemes de síntesi de veu convencionals generen, per cada segon d'àudio, entre 12,5 i 75 trames de senyal acústica enfront d'escassos 2 o 3 fragments de text. Aquesta diferència obliga els models a gestionar seqüències molt extenses, cosa que alenteix el processament i augmenta el risc que el sistema ometi paraules o insereixi contingut inexistent, un error conegut com al·lucinació.

TADA resol aquest desequilibri amb un esquema de tokenització que assigna exactament un vector acústic continu per cada token de text. D'aquesta manera, text i àudio es processen en paral·lel i en la mateixa proporció, sense necessitat de comprimir l'àudio ni d'afegir capes intermèdies addicionals.

En termes de velocitat, el sistema registra un factor de temps real de 0,09 — més de cinc vegades superior al dels sistemes comparables. En proves amb més de 1.000 mostres del conjunt de dades LibriTTSR, el model no va generar cap al·lucinació. En avaluacions de qualitat amb veu expressiva i de format llarg, va obtenir una puntuació de 4,18 sobre 5 en similitud amb el locutor original i de 3,78 sobre 5 en naturalitat, situant-se en segona posició entre els sistemes avaluats.

La mida reduïda del model li permet funcionar en dispositius mòbils sense dependre de serveis al núvol. Pel que fa a la gestió del context, pot processar fins a 700 segons d'àudio amb una finestra de 2.048 tokens, enfront dels aproximadament 70 segons que permeten els sistemes convencionals en les mateixes condicions.

Hume AI publica dues versions: un model de mil milions de paràmetres en anglès i un altre de tres mil milions amb suport per a vuit idiomes. Tots dos estan disponibles a Hugging Face sota llicència de codi obert. Els mateixos investigadors adverteixen de limitacions encara pendents de resoldre, com la possible deriva en la veu del locutor durant generacions molt llargues i una menor qualitat del text quan es combina simultàniament amb la generació de veu.

Punts clau

  • TADA és un nou sistema de síntesi de veu de Hume AI publicat en codi obert.
  • Sincronitza text i àudio en proporció 1:1, eliminant la desincronització dels sistemes actuals.
  • És més de cinc vegades més ràpid que sistemes LLM de síntesi de veu comparables.
  • En proves amb més de 1.000 mostres, no va generar cap al·lucinació.
  • És prou lleuger per funcionar en dispositius mòbils sense connexió al núvol.
  • Pot gestionar fins a 700 segons d'àudio enfront dels 70 segons dels sistemes convencionals.
  • Disponible en dues versions: 1B paràmetres en anglès i 3B multilingüe amb vuit idiomes.
  • Presenta encara limitacions en generacions molt llargues i en combinar text i veu simultàniament.

Vídeos

IA relacionada

Hume

Interfície de veu amb intel·ligència emocional

Laboratori de recerca i empresa tecnològica especialitzada en models d'IA amb intel·ligència emocional. El seu model principal integra processament de veu i llenguatge, amb síntesi vocal ...

Últimes noticies

Trustpilot
Aquest lloc web utilitza cookies tècniques, de personalització i anàlisi, pròpies i de tercers, per facilitar la navegació anònima i analitzar estadístiques d’ús del web. Considerem que si continueu navegant, n’accepteu l’ús.