Hume estrena Octave, un modelo de inteligencia artificial revolucionario que va más allá de leer textos: comprende su significado, generando voces naturales y expresivas que capturan emociones y contextos como nunca antes.
La compañía Hume ha presentado Octave, un sistema de texto a voz que introduce un enfoque novedoso en la inteligencia artificial. A diferencia de los métodos convencionales, que se limitan a pronunciar palabras, este modelo —descrito por sus creadores como el primer modelo de lenguaje grande para texto a voz— interpreta el contexto y las emociones de un texto. Esto le permite ajustar el tono, el ritmo y el timbre, produciendo desde susurros en escenas íntimas hasta explicaciones pausadas, similar a cómo un actor leería un guion.
En una prueba con 180 evaluadores, Octave mostró resultados superiores a ElevenLabs, un competidor destacado. Logró un 71,6% de preferencia en calidad de audio, 51,7% en naturalidad y 57,7% en fidelidad a las descripciones de voz, según 120 ejemplos variados que incluían desde narradores de cine hasta personajes medievales. Estos datos reflejan su habilidad para adaptarse a diferentes estilos y necesidades.
El sistema cuenta con herramientas como Voice Design, que permite crear voces únicas basadas en descripciones detalladas, desde un consejero empático hasta un caballero medieval. También incluye Acting Instructions, una función que ajusta emociones y estilos en tiempo real según las indicaciones. Además, está previsto que pronto incorpore clonación de voz, una capacidad que solo necesitará cinco segundos de audio para replicar una voz existente.
Octave ya está disponible en platform.hume.ai y a través de una API, lo que lo hace útil para proyectos como audiolibros, podcasts o aplicaciones interactivas. Junto a esto, Hume ha lanzado Expressive TTS Arena, una plataforma pública donde cualquiera puede comparar sistemas de voz avanzados y evaluar sus capacidades con textos más complejos y expresivos.
Desarrollado inicialmente para inglés y español, Octave sigue en mejora. Además de sintetizar voz, explora cómo las personas se expresan, un paso hacia futuras aplicaciones de IA.
Laboratorio de investigación y empresa tecnológica especializada en modelos de IA con inteligencia emocional. Su modelo principal integra procesamiento de voz y lenguaje, con síntesis vocal ...
17/04/2026
Anthropic ha lanzado Claude Design, una herramienta que permite crear diseños visuales, prototipos interactivos y presentaciones mediante ...
17/04/2026
Anthropic publica Claude Opus 4.7, un modelo con ganancias destacadas en tareas de desarrollo de software, mayor resolución de imagen y nuevas ...
08/04/2026
Meta Superintelligence Labs lanza Muse Spark, un modelo multimodal de inteligencia artificial capaz de procesar texto e imágenes a la vez y que ...
07/04/2026
Anthropic ha presentado Project Glasswing, una iniciativa de ciberseguridad junto a doce grandes empresas tecnológicas para utilizar su nuevo modelo ...