Microsoft presenta MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2, tres modelos especializados en transcripción, síntesis de voz y generación de imágenes disponibles ya en Microsoft Foundry.
Microsoft ha puesto a disposición de los desarrolladores tres nuevos modelos de inteligencia artificial propios, agrupados bajo la marca MAI. Se trata de MAI-Transcribe-1, para transcripción de voz a texto; MAI-Voice-1, para generación de audio, y MAI-Image-2, para creación de imágenes a partir de texto. Los tres están disponibles en Microsoft Foundry, la plataforma de desarrollo de aplicaciones de IA de la compañía, y ya alimentan productos propios como Copilot, Bing o PowerPoint.
MAI-Transcribe-1 es el modelo de transcripción de voz de Microsoft. Funciona en los 25 idiomas más utilizados en los productos de la compañía y está diseñado para condiciones de audio reales: ruido de fondo, grabaciones de baja calidad y voces superpuestas. Según el benchmark FLEURS, estándar del sector, supera a Whisper-large-v3 y GPT-Transcribe de OpenAI, a Scribe v2 de ElevenLabs y a Gemini 3.1 Flash-Lite de Google en los 25 idiomas analizados, con un coste de GPU aproximadamente un 50% inferior al de las alternativas comparables. Microsoft ya lo utiliza en el modo de voz de Copilot y en las transcripciones de Microsoft Teams. El precio en Foundry parte de 0,36 dólares por hora.
MAI-Voice-1 se ocupa de la generación de voz sintética a partir de texto. El modelo es capaz de producir un minuto de audio en menos de un segundo sobre una sola unidad de procesamiento gráfico. Incorpora la posibilidad de clonar una voz a partir de una muestra de audio de apenas diez segundos, aunque esta función está sujeta a un proceso de aprobación conforme a las políticas de uso responsable de Microsoft. La empresa ya emplea este modelo para las funciones de voz expresiva en Copilot. El acceso parte de 22 dólares por millón de caracteres.
MAI-Image-2 es el modelo de generación de imágenes a partir de texto. En el momento de su lanzamiento figuraba entre los tres primeros modelos de su categoría en el clasificador Arena.ai. Microsoft indica que ofrece tiempos de generación al menos el doble de rápidos que su versión anterior con una calidad similar, basándose en datos de tráfico real de producción. La empresa de publicidad y comunicación WPP ya lo utiliza para flujos de trabajo de producción creativa a escala. El precio parte de 5 dólares por millón de tokens de entrada de texto y 33 dólares por millón de tokens de salida de imagen.
Los tres modelos han pasado por procesos de evaluación interna y pruebas de seguridad antes de su lanzamiento, y están disponibles con los controles de gobernanza y cumplimiento propios de Microsoft Foundry.
Microsoft AI desarrolla modelos y productos de inteligencia artificial con enfoque en responsabilidad, accesibilidad y utilidad práctica. Su trabajo abarca modelos fundacionales, generación de voz, ...
17/04/2026
Anthropic ha lanzado Claude Design, una herramienta que permite crear diseños visuales, prototipos interactivos y presentaciones mediante ...
17/04/2026
Anthropic publica Claude Opus 4.7, un modelo con ganancias destacadas en tareas de desarrollo de software, mayor resolución de imagen y nuevas ...
08/04/2026
Meta Superintelligence Labs lanza Muse Spark, un modelo multimodal de inteligencia artificial capaz de procesar texto e imágenes a la vez y que ...
07/04/2026
Anthropic ha presentado Project Glasswing, una iniciativa de ciberseguridad junto a doce grandes empresas tecnológicas para utilizar su nuevo modelo ...