Hume AI publica TADA sota llicència open source, un sistema de conversió de text a veu que sincronitza text i àudio per eliminar errors de contingut i multiplicar per cinc la velocitat dels sistemes actuals.
Hume AI ha fet públic TADA (Text-Acoustic Dual Alignment), un sistema de generació de veu que aborda un dels problemes més freqüents en els models actuals basats en grans models de llenguatge: la desincronització entre com es representa el text i com es representa l'àudio.
Els sistemes de síntesi de veu convencionals generen, per cada segon d'àudio, entre 12,5 i 75 trames de senyal acústica enfront d'escassos 2 o 3 fragments de text. Aquesta diferència obliga els models a gestionar seqüències molt extenses, cosa que alenteix el processament i augmenta el risc que el sistema ometi paraules o insereixi contingut inexistent, un error conegut com al·lucinació.
TADA resol aquest desequilibri amb un esquema de tokenització que assigna exactament un vector acústic continu per cada token de text. D'aquesta manera, text i àudio es processen en paral·lel i en la mateixa proporció, sense necessitat de comprimir l'àudio ni d'afegir capes intermèdies addicionals.
En termes de velocitat, el sistema registra un factor de temps real de 0,09 — més de cinc vegades superior al dels sistemes comparables. En proves amb més de 1.000 mostres del conjunt de dades LibriTTSR, el model no va generar cap al·lucinació. En avaluacions de qualitat amb veu expressiva i de format llarg, va obtenir una puntuació de 4,18 sobre 5 en similitud amb el locutor original i de 3,78 sobre 5 en naturalitat, situant-se en segona posició entre els sistemes avaluats.
La mida reduïda del model li permet funcionar en dispositius mòbils sense dependre de serveis al núvol. Pel que fa a la gestió del context, pot processar fins a 700 segons d'àudio amb una finestra de 2.048 tokens, enfront dels aproximadament 70 segons que permeten els sistemes convencionals en les mateixes condicions.
Hume AI publica dues versions: un model de mil milions de paràmetres en anglès i un altre de tres mil milions amb suport per a vuit idiomes. Tots dos estan disponibles a Hugging Face sota llicència de codi obert. Els mateixos investigadors adverteixen de limitacions encara pendents de resoldre, com la possible deriva en la veu del locutor durant generacions molt llargues i una menor qualitat del text quan es combina simultàniament amb la generació de veu.
Laboratori de recerca i empresa tecnològica especialitzada en models d'IA amb intel·ligència emocional. El seu model principal integra processament de veu i llenguatge, amb síntesi vocal ...
24/04/2026
DeepSeek llança en versió preliminar la seva família V4, dos models de codi obert capaços de processar fins a un milió de tokens de context i ...
23/04/2026
OpenAI llança GPT-5.5, un model dissenyat per executar tasques complexes de forma autònoma: programar, investigar, analitzar dades i operar ...
21/04/2026
OpenAI presenta ChatGPT Images 2.0, un model de generació d'imatges amb més precisió, suport multilingüe, proporcions flexibles i, per primera ...
17/04/2026
Anthropic ha llançat Claude Design, una eina que permet crear dissenys visuals, prototips interactius i presentacions mitjançant conversa amb el ...