ElevenLabs lance Eleven v3, modèle de synthèse vocale avec contrôle émotionnel

03/06/2025

ElevenLabs a publié Eleven v3 (alpha), un modèle de conversion texte-parole qui intègre des outils de contrôle émotionnel et des capacités de dialogue multi-locuteurs pour les applications de contenu multimédia.

ElevenLabs lance Eleven v3, modèle de synthèse vocale avec contrôle émotionnel

Cette version expérimentale de leur technologie de synthèse vocale inclut de nouvelles fonctionnalités d'expressivité. Le modèle permet de générer des voix avec différentes émotions grâce à des balises audio spécifiques et prend en charge les conversations entre plusieurs locuteurs, caractéristiques développées après avoir détecté des demandes du secteur audiovisuel.

Le système intègre la prise en charge de plus de 70 langues et utilise des balises insérées dans le texte pour modifier le ton et les expressions vocales. Les utilisateurs peuvent appliquer des commandes comme [whispers], [sighs] ou [excited] directement dans leurs scripts pour générer des effets spécifiques. La technologie permet également de combiner plusieurs balises dans la même phrase pour créer des expressions plus complexes.

La fonctionnalité de dialogue multi-locuteurs fonctionne via une API qui traite des structures JSON, où chaque objet représente l'intervention d'un locuteur différent. Le système gère automatiquement les transitions entre les voix, les changements de ton et les interruptions conversationnelles, générant un fichier audio cohérent qui simule des conversations naturelles.

Le développement de cette version s'est orienté vers des secteurs nécessitant une plus grande expressivité vocale, comme la production cinématographique, le développement de jeux vidéo, l'éducation et les outils d'accessibilité. Les développeurs indiquent que la qualité technique audio n'était plus la principale limitation, mais plutôt la capacité à générer des émotions nuancées et des dialogues crédibles.

Le modèle v3 nécessite une plus grande précision dans la formulation des prompts par rapport aux versions précédentes. Pour les applications nécessitant une réponse en temps réel ou un usage conversationnel, il est recommandé de maintenir les modèles v2.5 Turbo ou Flash, tandis qu'une version temps réel de v3 est en développement.

Cette mise à jour fait partie de l'évolution depuis le lancement de Multilingual v2, qui avait déjà trouvé une adoption dans les productions professionnelles de divers secteurs. Le nouveau modèle cherche à couvrir les besoins expressifs que les versions précédentes ne satisfaisaient pas complètement dans les applications de contenu multimédia avancé.

Vidéos

IA connexe

ElevenLabs

Génération de Voix IA

Explorez le logiciel de clonage vocal et de synthèse vocale le plus avancé de l'histoire. Créez des voix off réalistes pour vos contenus ou utilisez notre générateur de voix IA comme un lecteur ...

Dernières nouvelles

Trustpilot
Ce site utilise des cookies techniques, de personnalisation et d’analyse, propres et tiers, pour faciliter la navigation anonyme et analyser les statistiques d’utilisation du site. Nous considérons que si vous continuez à naviguer, vous acceptez leur utilisation.