Trois nouveaux modèles MAI de Microsoft pour la transcription, la voix et l’image

02/04/2026

Microsoft présente MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2, trois modèles spécialisés dans la transcription, la synthèse vocale et la génération d'images, désormais disponibles dans Microsoft Foundry.

Trois nouveaux modèles MAI de Microsoft pour la transcription, la voix et l’image

Microsoft met à la disposition des développeurs trois nouveaux modèles d'intelligence artificielle maison, regroupés sous la marque MAI. Il s'agit de MAI-Transcribe-1, pour la transcription de la parole en texte ; MAI-Voice-1, pour la génération audio ; et MAI-Image-2, pour la création d'images à partir de texte. Les trois sont disponibles dans Microsoft Foundry, la plateforme de développement d'applications IA de l'entreprise, et alimentent déjà des produits comme Copilot, Bing ou PowerPoint.

MAI-Transcribe-1 est le modèle de transcription vocale de Microsoft. Il fonctionne dans les 25 langues les plus utilisées dans les produits de l'entreprise et est conçu pour des conditions audio réelles : bruit de fond, enregistrements de mauvaise qualité et voix superposées. Selon le benchmark FLEURS, référence du secteur, il surpasse Whisper-large-v3 et GPT-Transcribe d'OpenAI, Scribe v2 d'ElevenLabs et Gemini 3.1 Flash-Lite de Google dans les 25 langues analysées, avec un coût GPU environ 50 % inférieur à celui des alternatives comparables. Microsoft l'utilise déjà dans le mode vocal de Copilot et pour les transcriptions de Microsoft Teams. Le prix dans Foundry commence à 0,36 $ par heure.

MAI-Voice-1 se charge de la génération de voix synthétique à partir de texte. Le modèle est capable de produire une minute d'audio en moins d'une seconde sur un seul processeur graphique. Il intègre la possibilité de cloner une voix à partir d'un échantillon audio d'à peine dix secondes, bien que cette fonctionnalité soit soumise à un processus d'approbation conforme aux politiques d'IA responsable de Microsoft. L'accès commence à 22 $ par million de caractères.

MAI-Image-2 est le modèle de génération d'images à partir de texte. Au moment de son lancement, il figurait parmi les trois premiers modèles de sa catégorie dans le classement Arena.ai. Microsoft indique qu'il offre des temps de génération au moins deux fois plus rapides que sa version précédente pour une qualité similaire. Le groupe de communication WPP l'utilise déjà pour ses flux de production créative à grande échelle. Le prix commence à 5 $ par million de tokens de texte en entrée et 33 $ par million de tokens d'image en sortie.

Les trois modèles ont fait l'objet d'évaluations internes et de tests de sécurité avant leur lancement, et sont déployés avec les contrôles de gouvernance propres à Microsoft Foundry.

Points clés

  • Microsoft lance trois modèles d'IA maison —MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2— disponibles dans Microsoft Foundry.
  • MAI-Transcribe-1 surpasse les modèles de transcription d'OpenAI, ElevenLabs et Google dans 25 langues, selon le benchmark FLEURS.
  • Il est conçu pour les conditions audio difficiles : bruit de fond, faible qualité et voix superposées.
  • MAI-Voice-1 génère une minute d'audio en moins d'une seconde et permet de cloner des voix à partir d'échantillons de dix secondes.
  • MAI-Image-2 est deux fois plus rapide que sa version précédente et figure parmi les trois premiers du classement Arena.ai.
  • Les trois modèles sont déjà intégrés dans Copilot, Bing, PowerPoint et Microsoft Teams.

IA connexe

Microsoft AI

Modèles fondationnels et applications

Microsoft AI développe des modèles et produits d'intelligence artificielle axés sur la responsabilité, l'accessibilité et l'utilité pratique. Son travail englobe les modèles fondationnels, la ...

Dernières nouvelles

Trustpilot
Ce site utilise des cookies techniques, de personnalisation et d’analyse, propres et tiers, pour faciliter la navigation anonyme et analyser les statistiques d’utilisation du site. Nous considérons que si vous continuez à naviguer, vous acceptez leur utilisation.