Neuphonic présente NeuTTS Air, un modèle de langage vocal réaliste en open source qui fonctionne localement sur les appareils sans nécessiter de serveurs GPU ni de connexion internet, avec une capacité de clonage vocal instantané.
Neuphonic a lancé NeuTTS Air en tant que projet open source, un modèle de langage vocal qui fonctionne directement sur des appareils locaux. Contrairement aux systèmes avancés de synthèse vocale qui ont traditionnellement été disponibles uniquement via des API cloud, ce modèle fonctionne complètement sans connexion internet. L'entreprise indique qu'il s'agit du premier modèle de synthèse vocale avec ces caractéristiques de réalisme capable de s'exécuter entièrement sur l'appareil de l'utilisateur.
Le modèle est construit sur Qwen 0.5B, un modèle de langage léger optimisé pour la compréhension et la génération de texte, combiné avec NeuCodec, le codec audio neural propriétaire de Neuphonic. Cette architecture permet au système de fonctionner en temps réel même sur des appareils de milieu de gamme, y compris les ordinateurs portables, les téléphones mobiles et les cartes Raspberry Pi. L'entreprise a distribué NeuTTS Air au format GGML, conçu spécifiquement pour permettre une inférence efficace sur les appareils sans nécessiter de matériel spécialisé.
L'une des fonctionnalités remarquables du système est le clonage vocal instantané, qui permet de créer un profil vocal personnalisé avec seulement trois secondes d'audio de référence. Cette fonctionnalité fonctionne entièrement sur l'appareil local, ce qui signifie que les données vocales ne sont jamais transmises à des serveurs externes. Neuphonic souligne que cette approche répond aux préoccupations en matière de confidentialité et de conformité réglementaire, particulièrement pertinentes dans les applications traitant des données sensibles.
Le modèle génère des voix avec un haut degré de naturalité pour sa taille, équilibrant la qualité audio avec la vitesse de traitement et les besoins de stockage. L'architecture combine un modèle de langage compact avec un codec audio qui atteint une haute qualité à des débits binaires réduits grâce à l'utilisation d'un seul livre de codes. Selon l'entreprise, cet équilibre permet des applications en temps réel sur des appareils aux ressources limitées.
NeuTTS Air est disponible gratuitement sur Hugging Face sous licence open source. Les sorties audio du modèle incluent des filigranes pour faciliter leur identification. Neuphonic indique que la consommation énergétique du système a été spécifiquement optimisée pour les appareils mobiles et embarqués, permettant son utilisation dans des applications allant des assistants vocaux aux jouets interactifs et outils nécessitant une conformité stricte aux réglementations sur la confidentialité.
Entreprise de synthèse vocale qui génère une parole naturelle pour les appareils via intelligence artificielle. Propose des services via API cloud et modèles compacts on-device. Inclut des ...
17/02/2026
Meta et NVIDIA ont annoncé un partenariat stratégique pluriannuel pour le déploiement massif de puces et de réseaux dans les centres de données ...
11/02/2026
Zoë Hitzig, qui a passé deux ans chez OpenAI à façonner les modèles d'IA et les politiques de sécurité, a démissionné suite à l'annonce de ...
05/02/2026
Kuaishou Technology a présenté Kling AI 3.0, qui comprend quatre nouveaux modèles de génération vidéo et image avec des améliorations ...
05/02/2026
OpenAI a présenté Frontier, une plateforme conçue pour permettre aux entreprises de construire, déployer et gérer des agents d'intelligence ...