ElevenLabs ha llançat Eleven v3 (alpha), un model de conversió de text a veu que incorpora eines de control emocional i capacitats de diàleg multi-parlant per a aplicacions de contingut multimèdia.
Aquesta versió experimental de la seva tecnologia de síntesi de veu inclou noves funcionalitats d'expressivitat. El model permet generar veus amb diferents emocions mitjançant etiquetes d'àudio específiques i suporta conversacions entre múltiples parlants, característiques desenvolupades després de detectar demandes del sector audiovisual.
El sistema incorpora suport per a més de 70 idiomes i utilitza etiquetes inserides en el text per modificar el to i les expressions vocals. Els usuaris poden aplicar ordres com [whispers], [sighs] o [excited] directament en els seus scripts per generar efectes específics. La tecnologia també permet combinar múltiples etiquetes en la mateixa frase per crear expressions més complexes.
La funcionalitat de diàleg multi-parlant opera mitjançant una API que processa estructures JSON, on cada objecte representa la intervenció d'un parlant diferent. El sistema gestiona automàticament les transicions entre veus, canvis de to i interrupcions conversacionals, generant un arxiu d'àudio cohesiu que simula conversacions naturals.
El desenvolupament d'aquesta versió s'ha orientat cap a sectors que requereixen major expressivitat vocal, com la producció cinematogràfica, desenvolupament de videojocs, educació i eines d'accessibilitat. Els desenvolupadors assenyalen que la qualitat tècnica de l'àudio ja no constituïa la principal limitació, sinó la capacitat de generar emocions matisades i diàlegs creïbles.
El model v3 requereix major precisió en la formulació de prompts comparat amb versions anteriors. Per a aplicacions que necessiten resposta en temps real o ús conversacional, es recomana mantenir els models v2.5 Turbo o Flash, mentre es desenvolupa una versió en temps real de v3.
Aquesta actualització forma part de l'evolució des del llançament de la versió Multilingual v2, que ja havia trobat adopció en produccions professionals de diversos sectors. El nou model busca cobrir les necessitats expressives que les versions anteriors no satisfeien completament en aplicacions de contingut multimèdia avançat.
Explora el servei de clonació de veu i conversió de text a veu més avançat de la història. Crea locucions realistes per als teus continguts o utilitza el nostre generador de veu AI com un lector ...
07/11/2025
Freepik avança en la seva estratègia d'IA presentant Spaces, una eina que integra les seves funcions d'intel·ligència artificial en un entorn de ...
29/10/2025
Google ha actualitzat NotebookLM ampliant significativament la seva capacitat per processar col·leccions extenses de documents i afegint opcions de ...
26/10/2025
Google ha incorporat una nova funcionalitat a AI Studio que permet generar aplicacions amb intel·ligència artificial mitjançant descripcions en ...
24/10/2025
Mistral AI presenta AI Studio, una plataforma que ajuda les empreses a passar de l'experimentació a l'operació fiable de sistemes ...