Hume estrena Octave, un modelo de inteligencia artificial revolucionario que va más allá de leer textos: comprende su significado, generando voces naturales y expresivas que capturan emociones y contextos como nunca antes.
La compañía Hume ha presentado Octave, un sistema de texto a voz que introduce un enfoque novedoso en la inteligencia artificial. A diferencia de los métodos convencionales, que se limitan a pronunciar palabras, este modelo —descrito por sus creadores como el primer modelo de lenguaje grande para texto a voz— interpreta el contexto y las emociones de un texto. Esto le permite ajustar el tono, el ritmo y el timbre, produciendo desde susurros en escenas íntimas hasta explicaciones pausadas, similar a cómo un actor leería un guion.
En una prueba con 180 evaluadores, Octave mostró resultados superiores a ElevenLabs, un competidor destacado. Logró un 71,6% de preferencia en calidad de audio, 51,7% en naturalidad y 57,7% en fidelidad a las descripciones de voz, según 120 ejemplos variados que incluían desde narradores de cine hasta personajes medievales. Estos datos reflejan su habilidad para adaptarse a diferentes estilos y necesidades.
El sistema cuenta con herramientas como Voice Design, que permite crear voces únicas basadas en descripciones detalladas, desde un consejero empático hasta un caballero medieval. También incluye Acting Instructions, una función que ajusta emociones y estilos en tiempo real según las indicaciones. Además, está previsto que pronto incorpore clonación de voz, una capacidad que solo necesitará cinco segundos de audio para replicar una voz existente.
Octave ya está disponible en platform.hume.ai y a través de una API, lo que lo hace útil para proyectos como audiolibros, podcasts o aplicaciones interactivas. Junto a esto, Hume ha lanzado Expressive TTS Arena, una plataforma pública donde cualquiera puede comparar sistemas de voz avanzados y evaluar sus capacidades con textos más complejos y expresivos.
Desarrollado inicialmente para inglés y español, Octave sigue en mejora. Además de sintetizar voz, explora cómo las personas se expresan, un paso hacia futuras aplicaciones de IA.
Laboratorio de investigación y empresa tecnológica especializada en modelos de IA con inteligencia emocional. Su modelo principal integra procesamiento de voz y lenguaje, con síntesis vocal ...
07/11/2025
Freepik avanza en su estrategia de IA presentando Spaces, una herramienta que integra sus funciones de inteligencia artificial en un entorno de ...
29/10/2025
Google ha actualizado NotebookLM ampliando significativamente su capacidad para procesar colecciones extensas de documentos y añadiendo opciones de ...
26/10/2025
Google ha incorporado una nueva funcionalidad en AI Studio que permite generar aplicaciones con inteligencia artificial mediante descripciones en ...
24/10/2025
Mistral AI presenta AI Studio, una plataforma que ayuda a las empresas a pasar de la experimentación a la operación fiable de sistemas de ...