Octave: el primer sistema de texto a voz que entiende lo que dice

26/02/2025

Hume estrena Octave, un modelo de inteligencia artificial revolucionario que va más allá de leer textos: comprende su significado, generando voces naturales y expresivas que capturan emociones y contextos como nunca antes.

Octave: el primer sistema de texto a voz que entiende lo que dice

La compañía Hume ha presentado Octave, un sistema de texto a voz que introduce un enfoque novedoso en la inteligencia artificial. A diferencia de los métodos convencionales, que se limitan a pronunciar palabras, este modelo —descrito por sus creadores como el primer modelo de lenguaje grande para texto a voz— interpreta el contexto y las emociones de un texto. Esto le permite ajustar el tono, el ritmo y el timbre, produciendo desde susurros en escenas íntimas hasta explicaciones pausadas, similar a cómo un actor leería un guion.

En una prueba con 180 evaluadores, Octave mostró resultados superiores a ElevenLabs, un competidor destacado. Logró un 71,6% de preferencia en calidad de audio, 51,7% en naturalidad y 57,7% en fidelidad a las descripciones de voz, según 120 ejemplos variados que incluían desde narradores de cine hasta personajes medievales. Estos datos reflejan su habilidad para adaptarse a diferentes estilos y necesidades.

El sistema cuenta con herramientas como Voice Design, que permite crear voces únicas basadas en descripciones detalladas, desde un consejero empático hasta un caballero medieval. También incluye Acting Instructions, una función que ajusta emociones y estilos en tiempo real según las indicaciones. Además, está previsto que pronto incorpore clonación de voz, una capacidad que solo necesitará cinco segundos de audio para replicar una voz existente.

Octave ya está disponible en platform.hume.ai y a través de una API, lo que lo hace útil para proyectos como audiolibros, podcasts o aplicaciones interactivas. Junto a esto, Hume ha lanzado Expressive TTS Arena, una plataforma pública donde cualquiera puede comparar sistemas de voz avanzados y evaluar sus capacidades con textos más complejos y expresivos.

Desarrollado inicialmente para inglés y español, Octave sigue en mejora. Además de sintetizar voz, explora cómo las personas se expresan, un paso hacia futuras aplicaciones de IA.

Vídeos

IA relacionada

Hume

Voice Interface with Emotional Intelligence

Laboratorio de investigación y empresa tecnológica especializada en modelos de IA con inteligencia emocional. Su modelo principal integra procesamiento de voz y lenguaje, con síntesis vocal ...

Últimas noticias

Trustpilot
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.