NeuTTS Air: model de veu open source que opera en dispositius sense internet

02/10/2025

Neuphonic presenta NeuTTS Air, un model de llenguatge de veu realista de codi obert que opera localment en dispositius sense requerir servidors GPU ni connexió a internet, amb capacitat de clonació instantània de veu.

NeuTTS Air: model de veu open source que opera en dispositius sense internet

Neuphonic ha llançat NeuTTS Air com a projecte de codi obert, un model de llenguatge de veu que funciona directament en dispositius locals. A diferència dels sistemes avançats de síntesi de veu que tradicionalment han estat disponibles només a través d'APIs al núvol, aquest model opera completament sense connexió a internet. L'empresa indica que es tracta del primer model de síntesi de veu amb aquestes característiques de realisme capaç d'executar-se completament en el propi dispositiu de l'usuari.

El model està construït sobre Qwen 0.5B, un model de llenguatge lleuger optimitzat per a la comprensió i generació de text, combinat amb NeuCodec, el còdec d'àudio neural propietari de Neuphonic. Aquesta arquitectura permet que el sistema funcioni en temps real fins i tot en dispositius de gamma mitjana, incloent ordinadors portàtils, telèfons mòbils i plaques Raspberry Pi. L'empresa ha distribuït NeuTTS Air en format GGML, dissenyat específicament per permetre la inferència eficient en dispositius sense requerir maquinari especialitzat.

Una de les característiques destacades del sistema és la clonació instantània de veu, que permet crear un perfil de veu personalitzat amb només tres segons d'àudio de referència. Aquesta funcionalitat opera completament en el dispositiu local, el que significa que les dades de veu mai es transmeten a servidors externs. Neuphonic assenyala que aquesta aproximació aborda preocupacions sobre privacitat i compliment normatiu, especialment rellevants en aplicacions que gestionen dades sensibles.

El model genera veus amb un alt grau de naturalitat per a la seva mida, equilibrant la qualitat de l'àudio amb la velocitat de processament i els requisits d'emmagatzematge. L'arquitectura combina un model de llenguatge compacte amb un còdec d'àudio que aconsegueix alta qualitat amb taxes de bits reduïdes mitjançant l'ús d'un únic llibre de codis. Segons l'empresa, aquest equilibri permet aplicacions en temps real en dispositius amb recursos limitats.

NeuTTS Air està disponible gratuïtament a Hugging Face sota llicència de codi obert. Les sortides d'àudio del model inclouen marques d'aigua per facilitar la seva identificació. Neuphonic indica que el consum energètic del sistema ha estat optimitzat específicament per a dispositius mòbils i embeguts, permetent el seu ús en aplicacions que van des d'assistents de veu fins a joguines interactives i eines que requereixen compliment estricte de normatives de privacitat.

Punts clau

  • NeuTTS Air opera completament en dispositius locals sense connexió a internet.
  • Les dades de veu es mantenen en el propi dispositiu per garantir privacitat i compliment normatiu.
  • Publicat com a codi obert gratuït a Hugging Face.
  • El sistema permet clonació instantània de veu amb només tres segons d'àudio de referència.
  • Està construït sobre Qwen 0.5B i utilitza NeuCodec, el còdec d'àudio neural propietari de Neuphonic.
  • Funciona en temps real en dispositius de gamma mitjana, incloent portàtils, mòbils i Raspberry Pi.
  • Les sortides d'àudio inclouen marques d'aigua per a la seva identificació.

Vídeos

IA relacionada

Neuphonic

Síntesi de veu per a dispositius

Empresa de síntesi de veu que genera parla natural per a dispositius mitjançant intel·ligència artificial. Ofereix serveis mitjançant API cloud i models compactes on-device. Inclou capacitats de ...

Últimes noticies

★★★★★
Valora'ns a Google
Aquest lloc web utilitza cookies tècniques, de personalització i anàlisi, pròpies i de tercers, per facilitar la navegació anònima i analitzar estadístiques d’ús del web. Considerem que si continueu navegant, n’accepteu l’ús.