ElevenLabs a publié Eleven v3 (alpha), un modèle de conversion texte-parole qui intègre des outils de contrôle émotionnel et des capacités de dialogue multi-locuteurs pour les applications de contenu multimédia.
Cette version expérimentale de leur technologie de synthèse vocale inclut de nouvelles fonctionnalités d'expressivité. Le modèle permet de générer des voix avec différentes émotions grâce à des balises audio spécifiques et prend en charge les conversations entre plusieurs locuteurs, caractéristiques développées après avoir détecté des demandes du secteur audiovisuel.
Le système intègre la prise en charge de plus de 70 langues et utilise des balises insérées dans le texte pour modifier le ton et les expressions vocales. Les utilisateurs peuvent appliquer des commandes comme [whispers], [sighs] ou [excited] directement dans leurs scripts pour générer des effets spécifiques. La technologie permet également de combiner plusieurs balises dans la même phrase pour créer des expressions plus complexes.
La fonctionnalité de dialogue multi-locuteurs fonctionne via une API qui traite des structures JSON, où chaque objet représente l'intervention d'un locuteur différent. Le système gère automatiquement les transitions entre les voix, les changements de ton et les interruptions conversationnelles, générant un fichier audio cohérent qui simule des conversations naturelles.
Le développement de cette version s'est orienté vers des secteurs nécessitant une plus grande expressivité vocale, comme la production cinématographique, le développement de jeux vidéo, l'éducation et les outils d'accessibilité. Les développeurs indiquent que la qualité technique audio n'était plus la principale limitation, mais plutôt la capacité à générer des émotions nuancées et des dialogues crédibles.
Le modèle v3 nécessite une plus grande précision dans la formulation des prompts par rapport aux versions précédentes. Pour les applications nécessitant une réponse en temps réel ou un usage conversationnel, il est recommandé de maintenir les modèles v2.5 Turbo ou Flash, tandis qu'une version temps réel de v3 est en développement.
Cette mise à jour fait partie de l'évolution depuis le lancement de Multilingual v2, qui avait déjà trouvé une adoption dans les productions professionnelles de divers secteurs. Le nouveau modèle cherche à couvrir les besoins expressifs que les versions précédentes ne satisfaisaient pas complètement dans les applications de contenu multimédia avancé.
Explorez le logiciel de clonage vocal et de synthèse vocale le plus avancé de l'histoire. Créez des voix off réalistes pour vos contenus ou utilisez notre générateur de voix IA comme un lecteur ...
29/05/2025
Black Forest Labs présente FLUX.1 Kontext, une nouvelle famille de modèles d'intelligence artificielle qui permet de générer et d'éditer des ...
22/05/2025
Anthropic présente Claude Opus 4 et Sonnet 4, des modèles d'intelligence artificielle qui atteignent de nouveaux records dans les évaluations de ...
16/05/2025
Codex est un agent basé sur l’intelligence artificielle qui optimise le développement logiciel en automatisant plusieurs tâches simultanément. ...
07/05/2025
Mistral AI a annoncé le lancement de Medium 3, un nouveau modèle d'intelligence artificielle qui combine des performances de pointe avec un coût ...