Hume AI lanza TADA, un sistema de voz de código abierto rápido que elimina las alucinaciones

10/03/2026

Hume AI publica TADA bajo licencia open-source, un sistema de conversión de texto a voz que sincroniza texto y audio para eliminar errores de contenido y multiplicar por cinco la velocidad de los sistemas actuales.

Hume AI lanza TADA, un sistema de voz de código abierto rápido que elimina las alucinaciones

Hume AI ha hecho público TADA (Text-Acoustic Dual Alignment), un sistema de generación de voz que aborda uno de los problemas más frecuentes en los modelos actuales basados en grandes modelos de lenguaje: la desincronización entre cómo se representa el texto y cómo se representa el audio.

Los sistemas de síntesis de voz convencionales generan, por cada segundo de audio, entre 12,5 y 75 fragmentos de señal acústica frente a apenas 2 o 3 fragmentos de texto. Esta diferencia obliga a los modelos a gestionar secuencias muy extensas, lo que ralentiza el procesamiento y aumenta el riesgo de que el sistema omita palabras o inserte contenido inexistente, un fallo conocido como alucinación.

TADA resuelve este desequilibrio con un esquema de tokenización que asigna exactamente un vector acústico continuo por cada token de texto. De este modo, texto y audio se procesan en paralelo y en la misma proporción, sin necesidad de comprimir el audio ni de añadir capas intermedias adicionales.

En términos de velocidad, el sistema registra un factor de tiempo real de 0,09, más de cinco veces superior al de otros sistemas comparables. En pruebas con más de 1.000 muestras del conjunto de datos LibriTTSR, el modelo no generó ninguna alucinación. En evaluaciones de calidad con voz expresiva y de formato largo, obtuvo una puntuación de 4,18 sobre 5 en similitud con el locutor original y de 3,78 sobre 5 en naturalidad, situándose en segunda posición entre los sistemas evaluados.

El tamaño reducido del modelo le permite funcionar en dispositivos móviles sin depender de servicios en la nube. En cuanto a la gestión del contexto, puede procesar hasta 700 segundos de audio con una ventana de 2.048 tokens, frente a los aproximadamente 70 segundos que permiten los sistemas convencionales en las mismas condiciones.

Hume AI publica dos versiones: un modelo de mil millones de parámetros en inglés y otro de tres mil millones con soporte para ocho idiomas. Ambos están disponibles en Hugging Face bajo licencia de código abierto. Los propios investigadores advierten de limitaciones aún pendientes de resolver, como la posible deriva en la voz del locutor durante generaciones muy largas y una menor calidad del texto cuando se combina simultáneamente con la generación de voz.

Puntos clave

  • TADA es un nuevo sistema de síntesis de voz de Hume AI publicado en código abierto.
  • Sincroniza texto y audio en proporción 1:1, eliminando la desincronización de los sistemas actuales.
  • Es más de cinco veces más rápido que sistemas LLM de síntesis de voz comparables.
  • En pruebas con más de 1.000 muestras, no generó ninguna alucinación.
  • Es lo suficientemente ligero para funcionar en dispositivos móviles sin conexión a la nube.
  • Puede gestionar hasta 700 segundos de audio frente a los 70 segundos de los sistemas convencionales.
  • Disponible en dos versiones: 1B parámetros en inglés y 3B multilingüe con ocho idiomas.
  • Aún presenta limitaciones en generaciones muy largas y al combinar texto y voz simultáneamente.

Vídeos

IA relacionada

Hume

Voice Interface with Emotional Intelligence

Laboratorio de investigación y empresa tecnológica especializada en modelos de IA con inteligencia emocional. Su modelo principal integra procesamiento de voz y lenguaje, con síntesis vocal ...

Últimas noticias

★★★★★
Valóranos en Google
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.