Tres nuevos modelos MAI de Microsoft para transcripción, generación de voz e imagen

02/04/2026

Microsoft presenta MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2, tres modelos especializados en transcripción, síntesis de voz y generación de imágenes disponibles ya en Microsoft Foundry.

Tres nuevos modelos MAI de Microsoft para transcripción, generación de voz e imagen

Microsoft ha puesto a disposición de los desarrolladores tres nuevos modelos de inteligencia artificial propios, agrupados bajo la marca MAI. Se trata de MAI-Transcribe-1, para transcripción de voz a texto; MAI-Voice-1, para generación de audio, y MAI-Image-2, para creación de imágenes a partir de texto. Los tres están disponibles en Microsoft Foundry, la plataforma de desarrollo de aplicaciones de IA de la compañía, y ya alimentan productos propios como Copilot, Bing o PowerPoint.

MAI-Transcribe-1 es el modelo de transcripción de voz de Microsoft. Funciona en los 25 idiomas más utilizados en los productos de la compañía y está diseñado para condiciones de audio reales: ruido de fondo, grabaciones de baja calidad y voces superpuestas. Según el benchmark FLEURS, estándar del sector, supera a Whisper-large-v3 y GPT-Transcribe de OpenAI, a Scribe v2 de ElevenLabs y a Gemini 3.1 Flash-Lite de Google en los 25 idiomas analizados, con un coste de GPU aproximadamente un 50% inferior al de las alternativas comparables. Microsoft ya lo utiliza en el modo de voz de Copilot y en las transcripciones de Microsoft Teams. El precio en Foundry parte de 0,36 dólares por hora.

MAI-Voice-1 se ocupa de la generación de voz sintética a partir de texto. El modelo es capaz de producir un minuto de audio en menos de un segundo sobre una sola unidad de procesamiento gráfico. Incorpora la posibilidad de clonar una voz a partir de una muestra de audio de apenas diez segundos, aunque esta función está sujeta a un proceso de aprobación conforme a las políticas de uso responsable de Microsoft. La empresa ya emplea este modelo para las funciones de voz expresiva en Copilot. El acceso parte de 22 dólares por millón de caracteres.

MAI-Image-2 es el modelo de generación de imágenes a partir de texto. En el momento de su lanzamiento figuraba entre los tres primeros modelos de su categoría en el clasificador Arena.ai. Microsoft indica que ofrece tiempos de generación al menos el doble de rápidos que su versión anterior con una calidad similar, basándose en datos de tráfico real de producción. La empresa de publicidad y comunicación WPP ya lo utiliza para flujos de trabajo de producción creativa a escala. El precio parte de 5 dólares por millón de tokens de entrada de texto y 33 dólares por millón de tokens de salida de imagen.

Los tres modelos han pasado por procesos de evaluación interna y pruebas de seguridad antes de su lanzamiento, y están disponibles con los controles de gobernanza y cumplimiento propios de Microsoft Foundry.

Puntos clave

  • Microsoft lanza tres modelos de IA propios —MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2— disponibles en Microsoft Foundry.
  • MAI-Transcribe-1 supera en precisión a modelos de OpenAI, ElevenLabs y Google en 25 idiomas, según el benchmark FLEURS.
  • Funciona bien en condiciones de audio difíciles: ruido, baja calidad y voces superpuestas.
  • MAI-Voice-1 genera un minuto de audio en menos de un segundo y permite clonar voces con muestras de diez segundos.
  • MAI-Image-2 es el doble de rápido que su versión anterior y se situó entre los tres primeros en el clasificador Arena.ai.
  • Los tres modelos ya están integrados en Copilot, Bing, PowerPoint y Microsoft Teams.

IA relacionada

Microsoft AI

Modelos fundacionales y aplicaciones

Microsoft AI desarrolla modelos y productos de inteligencia artificial con enfoque en responsabilidad, accesibilidad y utilidad práctica. Su trabajo abarca modelos fundacionales, generación de voz, ...

Últimas noticias

Trustpilot
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.