Hume AI publie TADA sous licence open source, un système de synthèse vocale qui synchronise texte et audio pour éliminer les erreurs de contenu et multiplier par cinq la vitesse des systèmes actuels.
Hume AI a rendu public TADA (Text-Acoustic Dual Alignment), un système de génération vocale qui s'attaque à l'un des problèmes les plus fréquents dans les systèmes actuels basés sur de grands modèles de langage : le décalage entre la représentation du texte et celle de l'audio.
Les systèmes de synthèse vocale conventionnels génèrent entre 12,5 et 75 trames acoustiques par seconde d'audio, contre seulement 2 à 3 tokens de texte. Cet écart oblige les modèles à gérer des séquences très longues, ce qui ralentit le traitement et augmente le risque que le système omette des mots ou insère du contenu inexistant — un défaut appelé hallucination.
TADA résout ce déséquilibre grâce à un schéma de tokenisation qui attribue exactement un vecteur acoustique continu par token de texte. Ainsi, texte et audio sont traités en parallèle et dans la même proportion, sans compresser l'audio ni ajouter de couches intermédiaires supplémentaires.
En termes de vitesse, le système affiche un facteur temps réel de 0,09 — plus de cinq fois supérieur à celui des systèmes comparables. Dans des tests portant sur plus de 1 000 échantillons du jeu de données LibriTTSR, le modèle n'a produit aucune hallucination. Lors d'évaluations humaines sur de la parole expressive et longue durée, il a obtenu 4,18 sur 5 pour la similarité avec le locuteur original et 3,78 sur 5 pour la naturalité, se classant deuxième parmi les systèmes évalués.
La taille réduite du modèle lui permet de fonctionner sur des appareils mobiles sans dépendre de services cloud. En matière de gestion du contexte, il peut traiter jusqu'à 700 secondes d'audio avec une fenêtre de 2 048 tokens, contre environ 70 secondes pour les systèmes conventionnels dans les mêmes conditions.
Hume AI publie deux versions : un modèle d'un milliard de paramètres en anglais et un autre de trois milliards multilingue prenant en charge huit langues. Les deux sont disponibles sur Hugging Face sous licence open source. Les chercheurs eux-mêmes signalent des limitations encore non résolues, notamment une possible dérive de la voix lors de générations très longues et une moindre qualité du texte lorsqu'il est combiné simultanément avec la génération vocale.
Laboratoire de recherche et entreprise technologique spécialisée dans les modèles d'IA avec intelligence émotionnelle. Son modèle principal intègre le traitement de la voix et du langage, avec ...
24/04/2026
DeepSeek lance en version préliminaire sa famille V4, deux modèles open source capables de traiter jusqu'à un million de tokens de contexte et de ...
23/04/2026
OpenAI lance GPT-5.5, un modèle conçu pour exécuter des tâches complexes de manière autonome : programmer, rechercher, analyser des données et ...
21/04/2026
OpenAI présente ChatGPT Images 2.0, un modèle de génération d'images offrant une meilleure précision, un support multilingue, des proportions ...
17/04/2026
Anthropic a lancé Claude Design, un outil permettant de créer des designs visuels, des prototypes interactifs et des présentations par ...