Octave: el primer sistema de text a veu que entén què diu

26/02/2025

Hume presenta Octave, un model d’IA innovador que va més enllà de llegir textos: n’entén el significat, generant veus naturals i expressives que capturen emocions i contextos com mai abans.

Octave: el primer sistema de text a veu que entén què diu

L’empresa Hume ha presentat Octave, un sistema de text a veu que aporta un enfocament nou a la intel·ligència artificial. A diferència dels mètodes tradicionals, que només pronuncien paraules, aquest model —descrit pels seus creadors com el primer model de llenguatge gran per a text a veu— interpreta el context i les emocions d’un text. Ajusta el to, el ritme i el timbre, produint xiuxiueigs en escenes íntimes o explicacions calmades, semblant a com un actor interpretaria un guió.

En una prova amb 180 avaluadors, Octave va superar ElevenLabs, un competidor destacat. Va aconseguir un 71,6% de preferència en qualitat d’àudio, un 51,7% en naturalitat i un 57,7% en fidelitat a les descripcions de veu, segons 120 exemples diversos, des de narradors de cinema fins a personatges medievals. Aquests resultats mostren la seva capacitat d’adaptació a diferents estils.

El sistema ofereix eines com Voice Design, que crea veus úniques a partir de descripcions detallades, com un conseller empàtic o un cavaller medieval. També inclou Acting Instructions, que permet ajustar emocions i estils al moment. Aviat afegirà clonació de veu, amb només cinc segons d’àudio necessaris.

Octave ja és accessible a platform.hume.ai i mitjançant API, ideal per a llibres àudio, podcasts o aplicacions interactives. A més, Hume ha engegat Expressive TTS Arena, una plataforma pública on qualsevol pot comparar sistemes de veu avançats i provar-los amb textos complexos i expressius.

Desenvolupat inicialment per a anglès i espanyol, Octave segueix millorant. Més enllà de sintetitzar veu, explora com les persones s’expressen, un pas cap a futures aplicacions d’IA.

Vídeos

IA relacionada

Hume

Interfície de veu amb intel·ligència emocional

Laboratori de recerca i empresa tecnològica especialitzada en models d'IA amb intel·ligència emocional. El seu model principal integra processament de veu i llenguatge, amb síntesi vocal ...

Últimes noticies

Trustpilot
Aquest lloc web utilitza cookies tècniques, de personalització i anàlisi, pròpies i de tercers, per facilitar la navegació anònima i analitzar estadístiques d’ús del web. Considerem que si continueu navegant, n’accepteu l’ús.