ElevenLabs llança Eleven v3, model de síntesi de veu amb control emocional

03/06/2025

ElevenLabs ha llançat Eleven v3 (alpha), un model de conversió de text a veu que incorpora eines de control emocional i capacitats de diàleg multi-parlant per a aplicacions de contingut multimèdia.

ElevenLabs llança Eleven v3, model de síntesi de veu amb control emocional

Aquesta versió experimental de la seva tecnologia de síntesi de veu inclou noves funcionalitats d'expressivitat. El model permet generar veus amb diferents emocions mitjançant etiquetes d'àudio específiques i suporta conversacions entre múltiples parlants, característiques desenvolupades després de detectar demandes del sector audiovisual.

El sistema incorpora suport per a més de 70 idiomes i utilitza etiquetes inserides en el text per modificar el to i les expressions vocals. Els usuaris poden aplicar ordres com [whispers], [sighs] o [excited] directament en els seus scripts per generar efectes específics. La tecnologia també permet combinar múltiples etiquetes en la mateixa frase per crear expressions més complexes.

La funcionalitat de diàleg multi-parlant opera mitjançant una API que processa estructures JSON, on cada objecte representa la intervenció d'un parlant diferent. El sistema gestiona automàticament les transicions entre veus, canvis de to i interrupcions conversacionals, generant un arxiu d'àudio cohesiu que simula conversacions naturals.

El desenvolupament d'aquesta versió s'ha orientat cap a sectors que requereixen major expressivitat vocal, com la producció cinematogràfica, desenvolupament de videojocs, educació i eines d'accessibilitat. Els desenvolupadors assenyalen que la qualitat tècnica de l'àudio ja no constituïa la principal limitació, sinó la capacitat de generar emocions matisades i diàlegs creïbles.

El model v3 requereix major precisió en la formulació de prompts comparat amb versions anteriors. Per a aplicacions que necessiten resposta en temps real o ús conversacional, es recomana mantenir els models v2.5 Turbo o Flash, mentre es desenvolupa una versió en temps real de v3.

Aquesta actualització forma part de l'evolució des del llançament de la versió Multilingual v2, que ja havia trobat adopció en produccions professionals de diversos sectors. El nou model busca cobrir les necessitats expressives que les versions anteriors no satisfeien completament en aplicacions de contingut multimèdia avançat.

Vídeos

IA relacionada

ElevenLabs

Generació de veu IA

Explora el servei de clonació de veu i conversió de text a veu més avançat de la història. Crea locucions realistes per als teus continguts o utilitza el nostre generador de veu AI com un lector ...

Últimes noticies

Trustpilot
Aquest lloc web utilitza cookies tècniques, de personalització i anàlisi, pròpies i de tercers, per facilitar la navegació anònima i analitzar estadístiques d’ús del web. Considerem que si continueu navegant, n’accepteu l’ús.