ElevenLabs ha llançat Eleven v3 (alpha), un model de conversió de text a veu que incorpora eines de control emocional i capacitats de diàleg multi-parlant per a aplicacions de contingut multimèdia.
Aquesta versió experimental de la seva tecnologia de síntesi de veu inclou noves funcionalitats d'expressivitat. El model permet generar veus amb diferents emocions mitjançant etiquetes d'àudio específiques i suporta conversacions entre múltiples parlants, característiques desenvolupades després de detectar demandes del sector audiovisual.
El sistema incorpora suport per a més de 70 idiomes i utilitza etiquetes inserides en el text per modificar el to i les expressions vocals. Els usuaris poden aplicar ordres com [whispers], [sighs] o [excited] directament en els seus scripts per generar efectes específics. La tecnologia també permet combinar múltiples etiquetes en la mateixa frase per crear expressions més complexes.
La funcionalitat de diàleg multi-parlant opera mitjançant una API que processa estructures JSON, on cada objecte representa la intervenció d'un parlant diferent. El sistema gestiona automàticament les transicions entre veus, canvis de to i interrupcions conversacionals, generant un arxiu d'àudio cohesiu que simula conversacions naturals.
El desenvolupament d'aquesta versió s'ha orientat cap a sectors que requereixen major expressivitat vocal, com la producció cinematogràfica, desenvolupament de videojocs, educació i eines d'accessibilitat. Els desenvolupadors assenyalen que la qualitat tècnica de l'àudio ja no constituïa la principal limitació, sinó la capacitat de generar emocions matisades i diàlegs creïbles.
El model v3 requereix major precisió en la formulació de prompts comparat amb versions anteriors. Per a aplicacions que necessiten resposta en temps real o ús conversacional, es recomana mantenir els models v2.5 Turbo o Flash, mentre es desenvolupa una versió en temps real de v3.
Aquesta actualització forma part de l'evolució des del llançament de la versió Multilingual v2, que ja havia trobat adopció en produccions professionals de diversos sectors. El nou model busca cobrir les necessitats expressives que les versions anteriors no satisfeien completament en aplicacions de contingut multimèdia avançat.
Explora el servei de clonació de veu i conversió de text a veu més avançat de la història. Crea locucions realistes per als teus continguts o utilitza el nostre generador de veu AI com un lector ...
29/05/2025
Black Forest Labs presenta FLUX.1 Kontext, una nova família de models d'intel·ligència artificial que permet generar i editar imatges utilitzant ...
22/05/2025
Anthropic presenta Claude Opus 4 i Sonnet 4, models d'intel·ligència artificial que assoleixen nous registres en avaluacions de codi i incorporen ...
16/05/2025
Codex és un agent basat en intel·ligència artificial que optimitza el desenvolupament de programari automatitzant múltiples tasques ...
07/05/2025
Mistral AI ha anunciat el llançament de Medium 3, un nou model d'intel·ligència artificial que combina un rendiment d'avantguarda amb un cost vuit ...