Hume AI publica TADA bajo licencia open-source, un sistema de conversión de texto a voz que sincroniza texto y audio para eliminar errores de contenido y multiplicar por cinco la velocidad de los sistemas actuales.
Hume AI ha hecho público TADA (Text-Acoustic Dual Alignment), un sistema de generación de voz que aborda uno de los problemas más frecuentes en los modelos actuales basados en grandes modelos de lenguaje: la desincronización entre cómo se representa el texto y cómo se representa el audio.
Los sistemas de síntesis de voz convencionales generan, por cada segundo de audio, entre 12,5 y 75 fragmentos de señal acústica frente a apenas 2 o 3 fragmentos de texto. Esta diferencia obliga a los modelos a gestionar secuencias muy extensas, lo que ralentiza el procesamiento y aumenta el riesgo de que el sistema omita palabras o inserte contenido inexistente, un fallo conocido como alucinación.
TADA resuelve este desequilibrio con un esquema de tokenización que asigna exactamente un vector acústico continuo por cada token de texto. De este modo, texto y audio se procesan en paralelo y en la misma proporción, sin necesidad de comprimir el audio ni de añadir capas intermedias adicionales.
En términos de velocidad, el sistema registra un factor de tiempo real de 0,09, más de cinco veces superior al de otros sistemas comparables. En pruebas con más de 1.000 muestras del conjunto de datos LibriTTSR, el modelo no generó ninguna alucinación. En evaluaciones de calidad con voz expresiva y de formato largo, obtuvo una puntuación de 4,18 sobre 5 en similitud con el locutor original y de 3,78 sobre 5 en naturalidad, situándose en segunda posición entre los sistemas evaluados.
El tamaño reducido del modelo le permite funcionar en dispositivos móviles sin depender de servicios en la nube. En cuanto a la gestión del contexto, puede procesar hasta 700 segundos de audio con una ventana de 2.048 tokens, frente a los aproximadamente 70 segundos que permiten los sistemas convencionales en las mismas condiciones.
Hume AI publica dos versiones: un modelo de mil millones de parámetros en inglés y otro de tres mil millones con soporte para ocho idiomas. Ambos están disponibles en Hugging Face bajo licencia de código abierto. Los propios investigadores advierten de limitaciones aún pendientes de resolver, como la posible deriva en la voz del locutor durante generaciones muy largas y una menor calidad del texto cuando se combina simultáneamente con la generación de voz.
Laboratorio de investigación y empresa tecnológica especializada en modelos de IA con inteligencia emocional. Su modelo principal integra procesamiento de voz y lenguaje, con síntesis vocal ...
09/06/2026
Anthropic presenta Claude Fable 5 y Claude Mythos 5, dos versiones de su modelo de mayor capacidad hasta la fecha. Comparten la misma base, pero uno ...
25/05/2026
El papa León XIV publica la primera encíclica dedicada a la inteligencia artificial, en la que fija la dignidad humana como criterio para todo ...
19/05/2026
Rime presenta Coda, un modelo de texto a voz para agentes conversacionales en tiempo real que reproduce el ritmo, las pausas y la entonación propios ...
11/05/2026
Thinking Machines Lab ha publicado una vista previa de investigación de TML-Interaction-Small, un modelo de interacción diseñado para colaborar ...