Neuphonic presenta NeuTTS Air, un model de llenguatge de veu realista de codi obert que opera localment en dispositius sense requerir servidors GPU ni connexió a internet, amb capacitat de clonació instantània de veu.
Neuphonic ha llançat NeuTTS Air com a projecte de codi obert, un model de llenguatge de veu que funciona directament en dispositius locals. A diferència dels sistemes avançats de síntesi de veu que tradicionalment han estat disponibles només a través d'APIs al núvol, aquest model opera completament sense connexió a internet. L'empresa indica que es tracta del primer model de síntesi de veu amb aquestes característiques de realisme capaç d'executar-se completament en el propi dispositiu de l'usuari.
El model està construït sobre Qwen 0.5B, un model de llenguatge lleuger optimitzat per a la comprensió i generació de text, combinat amb NeuCodec, el còdec d'àudio neural propietari de Neuphonic. Aquesta arquitectura permet que el sistema funcioni en temps real fins i tot en dispositius de gamma mitjana, incloent ordinadors portàtils, telèfons mòbils i plaques Raspberry Pi. L'empresa ha distribuït NeuTTS Air en format GGML, dissenyat específicament per permetre la inferència eficient en dispositius sense requerir maquinari especialitzat.
Una de les característiques destacades del sistema és la clonació instantània de veu, que permet crear un perfil de veu personalitzat amb només tres segons d'àudio de referència. Aquesta funcionalitat opera completament en el dispositiu local, el que significa que les dades de veu mai es transmeten a servidors externs. Neuphonic assenyala que aquesta aproximació aborda preocupacions sobre privacitat i compliment normatiu, especialment rellevants en aplicacions que gestionen dades sensibles.
El model genera veus amb un alt grau de naturalitat per a la seva mida, equilibrant la qualitat de l'àudio amb la velocitat de processament i els requisits d'emmagatzematge. L'arquitectura combina un model de llenguatge compacte amb un còdec d'àudio que aconsegueix alta qualitat amb taxes de bits reduïdes mitjançant l'ús d'un únic llibre de codis. Segons l'empresa, aquest equilibri permet aplicacions en temps real en dispositius amb recursos limitats.
NeuTTS Air està disponible gratuïtament a Hugging Face sota llicència de codi obert. Les sortides d'àudio del model inclouen marques d'aigua per facilitar la seva identificació. Neuphonic indica que el consum energètic del sistema ha estat optimitzat específicament per a dispositius mòbils i embeguts, permetent el seu ús en aplicacions que van des d'assistents de veu fins a joguines interactives i eines que requereixen compliment estricte de normatives de privacitat.
Empresa de síntesi de veu que genera parla natural per a dispositius mitjançant intel·ligència artificial. Ofereix serveis mitjançant API cloud i models compactes on-device. Inclou capacitats de ...
09/06/2026
Anthropic presenta Claude Fable 5 i Claude Mythos 5, dues versions del seu model de major capacitat fins ara. Comparteixen la mateixa base, però un ...
25/05/2026
El papa Lleó XIV publica la primera encíclica dedicada a la intel·ligència artificial, en la qual fixa la dignitat humana com a criteri per a tot ...
19/05/2026
Rime presenta Coda, un model de text a veu per a agents conversacionals en temps real que reprodueix el ritme, les pauses i l'entonació propis d'una ...
11/05/2026
Thinking Machines Lab ha publicat una vista prèvia de recerca de TML-Interaction-Small, un model d'interacció dissenyat per col·laborar amb ...