Hume estrena Octave, un modelo de inteligencia artificial revolucionario que va más allá de leer textos: comprende su significado, generando voces naturales y expresivas que capturan emociones y contextos como nunca antes.
La compañía Hume ha presentado Octave, un sistema de texto a voz que introduce un enfoque novedoso en la inteligencia artificial. A diferencia de los métodos convencionales, que se limitan a pronunciar palabras, este modelo —descrito por sus creadores como el primer modelo de lenguaje grande para texto a voz— interpreta el contexto y las emociones de un texto. Esto le permite ajustar el tono, el ritmo y el timbre, produciendo desde susurros en escenas íntimas hasta explicaciones pausadas, similar a cómo un actor leería un guion.
En una prueba con 180 evaluadores, Octave mostró resultados superiores a ElevenLabs, un competidor destacado. Logró un 71,6% de preferencia en calidad de audio, 51,7% en naturalidad y 57,7% en fidelidad a las descripciones de voz, según 120 ejemplos variados que incluían desde narradores de cine hasta personajes medievales. Estos datos reflejan su habilidad para adaptarse a diferentes estilos y necesidades.
El sistema cuenta con herramientas como Voice Design, que permite crear voces únicas basadas en descripciones detalladas, desde un consejero empático hasta un caballero medieval. También incluye Acting Instructions, una función que ajusta emociones y estilos en tiempo real según las indicaciones. Además, está previsto que pronto incorpore clonación de voz, una capacidad que solo necesitará cinco segundos de audio para replicar una voz existente.
Octave ya está disponible en platform.hume.ai y a través de una API, lo que lo hace útil para proyectos como audiolibros, podcasts o aplicaciones interactivas. Junto a esto, Hume ha lanzado Expressive TTS Arena, una plataforma pública donde cualquiera puede comparar sistemas de voz avanzados y evaluar sus capacidades con textos más complejos y expresivos.
Desarrollado inicialmente para inglés y español, Octave sigue en mejora. Además de sintetizar voz, explora cómo las personas se expresan, un paso hacia futuras aplicaciones de IA.
Laboratorio de investigación y empresa tecnológica especializada en modelos de IA con inteligencia emocional. Su modelo principal integra procesamiento de voz y lenguaje, con síntesis vocal ...
03/06/2025
ElevenLabs ha lanzado Eleven v3 (alpha), un modelo de conversión de texto a voz que incorpora herramientas de control emocional y capacidades de ...
29/05/2025
Black Forest Labs presenta FLUX.1 Kontext, una nueva familia de modelos de inteligencia artificial que permite generar y editar imágenes usando ...
22/05/2025
Anthropic presenta Claude Opus 4 y Sonnet 4, modelos de inteligencia artificial que alcanzan nuevos registros en evaluaciones de código y incorporan ...
16/05/2025
Codex es un agente basado en inteligencia artificial que optimiza el desarrollo de software automatizando múltiples tareas simultáneamente. OpenAI ...