Hume AI lance TADA, un système vocal open source rapide qui élimine les hallucinations

10/03/2026

Hume AI publie TADA sous licence open source, un système de synthèse vocale qui synchronise texte et audio pour éliminer les erreurs de contenu et multiplier par cinq la vitesse des systèmes actuels.

Hume AI lance TADA, un système vocal open source rapide qui élimine les hallucinations

Hume AI a rendu public TADA (Text-Acoustic Dual Alignment), un système de génération vocale qui s'attaque à l'un des problèmes les plus fréquents dans les systèmes actuels basés sur de grands modèles de langage : le décalage entre la représentation du texte et celle de l'audio.

Les systèmes de synthèse vocale conventionnels génèrent entre 12,5 et 75 trames acoustiques par seconde d'audio, contre seulement 2 à 3 tokens de texte. Cet écart oblige les modèles à gérer des séquences très longues, ce qui ralentit le traitement et augmente le risque que le système omette des mots ou insère du contenu inexistant — un défaut appelé hallucination.

TADA résout ce déséquilibre grâce à un schéma de tokenisation qui attribue exactement un vecteur acoustique continu par token de texte. Ainsi, texte et audio sont traités en parallèle et dans la même proportion, sans compresser l'audio ni ajouter de couches intermédiaires supplémentaires.

En termes de vitesse, le système affiche un facteur temps réel de 0,09 — plus de cinq fois supérieur à celui des systèmes comparables. Dans des tests portant sur plus de 1 000 échantillons du jeu de données LibriTTSR, le modèle n'a produit aucune hallucination. Lors d'évaluations humaines sur de la parole expressive et longue durée, il a obtenu 4,18 sur 5 pour la similarité avec le locuteur original et 3,78 sur 5 pour la naturalité, se classant deuxième parmi les systèmes évalués.

La taille réduite du modèle lui permet de fonctionner sur des appareils mobiles sans dépendre de services cloud. En matière de gestion du contexte, il peut traiter jusqu'à 700 secondes d'audio avec une fenêtre de 2 048 tokens, contre environ 70 secondes pour les systèmes conventionnels dans les mêmes conditions.

Hume AI publie deux versions : un modèle d'un milliard de paramètres en anglais et un autre de trois milliards multilingue prenant en charge huit langues. Les deux sont disponibles sur Hugging Face sous licence open source. Les chercheurs eux-mêmes signalent des limitations encore non résolues, notamment une possible dérive de la voix lors de générations très longues et une moindre qualité du texte lorsqu'il est combiné simultanément avec la génération vocale.

Points clés

  • TADA est un nouveau système de synthèse vocale open source développé par Hume AI.
  • Il synchronise texte et audio dans un rapport 1:1, éliminant le décalage des systèmes actuels.
  • Il est plus de cinq fois plus rapide que les systèmes TTS comparables basés sur des LLM.
  • Dans des tests portant sur plus de 1 000 échantillons, aucune hallucination n'a été détectée.
  • Il est suffisamment léger pour fonctionner sur des appareils mobiles sans connexion cloud.
  • Il peut gérer jusqu'à 700 secondes d'audio contre 70 secondes pour les systèmes conventionnels.
  • Disponible en deux versions : 1B de paramètres en anglais et 3B multilingue sur huit langues.
  • Présente encore des limitations pour les générations très longues et la combinaison texte-voix simultanée.

Vidéos

IA connexe

Hume

Interface vocale avec intelligence émotionnelle

Laboratoire de recherche et entreprise technologique spécialisée dans les modèles d'IA avec intelligence émotionnelle. Son modèle principal intègre le traitement de la voix et du langage, avec ...

Dernières nouvelles

Trustpilot
Ce site utilise des cookies techniques, de personnalisation et d’analyse, propres et tiers, pour faciliter la navigation anonyme et analyser les statistiques d’utilisation du site. Nous considérons que si vous continuez à naviguer, vous acceptez leur utilisation.