ElevenLabs ha lanzado Eleven v3 (alpha), un modelo de conversión de texto a voz que incorpora herramientas de control emocional y capacidades de diálogo multi-hablante para aplicaciones de contenido multimedia.
Esta versión experimental de su tecnología de síntesis de voz incluye nuevas funcionalidades de expresividad. El modelo permite generar voces con diferentes emociones mediante etiquetas de audio específicas y soporta conversaciones entre múltiples hablantes, características desarrolladas tras detectar demandas del sector audiovisual.
El sistema incorpora soporte para más de 70 idiomas y utiliza etiquetas insertadas en el texto para modificar el tono y las expresiones vocales. Los usuarios pueden aplicar comandos como [whispers], [sighs] o [excited] directamente en sus scripts para generar efectos específicos. La tecnología también permite combinar múltiples etiquetas en una misma frase para crear expresiones más complejas.
La funcionalidad de diálogo multi-hablante opera mediante una API que procesa estructuras JSON, donde cada objeto representa la intervención de un hablante diferente. El sistema gestiona automáticamente las transiciones entre voces, cambios de tono e interrupciones conversacionales, generando un archivo de audio cohesivo que simula conversaciones naturales.
El desarrollo de esta versión se ha orientado hacia sectores que requieren mayor expresividad vocal, como la producción cinematográfica, desarrollo de videojuegos, educación y herramientas de accesibilidad. Los desarrolladores señalan que la calidad técnica del audio ya no constituía la principal limitación, sino la capacidad de generar emociones matizadas y diálogos creíbles.
El modelo v3 requiere mayor precisión en la formulación de prompts comparado con versiones anteriores. Para aplicaciones que necesitan respuesta en tiempo real o uso conversacional, se recomienda mantener los modelos v2.5 Turbo o Flash, mientras se desarrolla una versión en tiempo real de v3.
Esta actualización forma parte de la evolución desde el lanzamiento de la versión Multilingual v2, que ya había encontrado adopción en producciones profesionales de diversos sectores. El nuevo modelo busca cubrir las necesidades expresivas que las versiones anteriores no satisfacían completamente en aplicaciones de contenido multimedia avanzado.
Explora el software de clonación de voz y conversión de texto a voz más avanzado de la historia. Crea locuciones realistas para tus contenidos o utiliza nuestro generador de voz AI como un lector ...
02/03/2026
El fabricante de Claude rechaza eliminar dos restricciones de uso de su IA para el ejército, en un conflicto que llevó a Trump a ordenar su cese en ...
25/02/2026
Perplexity presenta Computer, un agente de IA capaz de crear y ejecutar flujos de trabajo completos durante horas o meses, coordinando de forma ...
23/02/2026
Anthropic ha identificado campañas a gran escala de DeepSeek, Moonshot y MiniMax para extraer de forma fraudulenta las capacidades de su modelo ...
21/02/2026
El AI Impact Summit 2026 concluye con un acuerdo voluntario suscrito por 88 países que fija las bases para una cooperación internacional en torno ...