ElevenLabs lanza Eleven v3, modelo de síntesis de voz con control emocional

03/06/2025

ElevenLabs ha lanzado Eleven v3 (alpha), un modelo de conversión de texto a voz que incorpora herramientas de control emocional y capacidades de diálogo multi-hablante para aplicaciones de contenido multimedia.

ElevenLabs lanza Eleven v3, modelo de síntesis de voz con control emocional

Esta versión experimental de su tecnología de síntesis de voz incluye nuevas funcionalidades de expresividad. El modelo permite generar voces con diferentes emociones mediante etiquetas de audio específicas y soporta conversaciones entre múltiples hablantes, características desarrolladas tras detectar demandas del sector audiovisual.

El sistema incorpora soporte para más de 70 idiomas y utiliza etiquetas insertadas en el texto para modificar el tono y las expresiones vocales. Los usuarios pueden aplicar comandos como [whispers], [sighs] o [excited] directamente en sus scripts para generar efectos específicos. La tecnología también permite combinar múltiples etiquetas en una misma frase para crear expresiones más complejas.

La funcionalidad de diálogo multi-hablante opera mediante una API que procesa estructuras JSON, donde cada objeto representa la intervención de un hablante diferente. El sistema gestiona automáticamente las transiciones entre voces, cambios de tono e interrupciones conversacionales, generando un archivo de audio cohesivo que simula conversaciones naturales.

El desarrollo de esta versión se ha orientado hacia sectores que requieren mayor expresividad vocal, como la producción cinematográfica, desarrollo de videojuegos, educación y herramientas de accesibilidad. Los desarrolladores señalan que la calidad técnica del audio ya no constituía la principal limitación, sino la capacidad de generar emociones matizadas y diálogos creíbles.

El modelo v3 requiere mayor precisión en la formulación de prompts comparado con versiones anteriores. Para aplicaciones que necesitan respuesta en tiempo real o uso conversacional, se recomienda mantener los modelos v2.5 Turbo o Flash, mientras se desarrolla una versión en tiempo real de v3.

Esta actualización forma parte de la evolución desde el lanzamiento de la versión Multilingual v2, que ya había encontrado adopción en producciones profesionales de diversos sectores. El nuevo modelo busca cubrir las necesidades expresivas que las versiones anteriores no satisfacían completamente en aplicaciones de contenido multimedia avanzado.

Vídeos

Últimas noticias

Trustpilot
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.