Microsoft présente MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2, trois modèles spécialisés dans la transcription, la synthèse vocale et la génération d'images, désormais disponibles dans Microsoft Foundry.
Microsoft met à la disposition des développeurs trois nouveaux modèles d'intelligence artificielle maison, regroupés sous la marque MAI. Il s'agit de MAI-Transcribe-1, pour la transcription de la parole en texte ; MAI-Voice-1, pour la génération audio ; et MAI-Image-2, pour la création d'images à partir de texte. Les trois sont disponibles dans Microsoft Foundry, la plateforme de développement d'applications IA de l'entreprise, et alimentent déjà des produits comme Copilot, Bing ou PowerPoint.
MAI-Transcribe-1 est le modèle de transcription vocale de Microsoft. Il fonctionne dans les 25 langues les plus utilisées dans les produits de l'entreprise et est conçu pour des conditions audio réelles : bruit de fond, enregistrements de mauvaise qualité et voix superposées. Selon le benchmark FLEURS, référence du secteur, il surpasse Whisper-large-v3 et GPT-Transcribe d'OpenAI, Scribe v2 d'ElevenLabs et Gemini 3.1 Flash-Lite de Google dans les 25 langues analysées, avec un coût GPU environ 50 % inférieur à celui des alternatives comparables. Microsoft l'utilise déjà dans le mode vocal de Copilot et pour les transcriptions de Microsoft Teams. Le prix dans Foundry commence à 0,36 $ par heure.
MAI-Voice-1 se charge de la génération de voix synthétique à partir de texte. Le modèle est capable de produire une minute d'audio en moins d'une seconde sur un seul processeur graphique. Il intègre la possibilité de cloner une voix à partir d'un échantillon audio d'à peine dix secondes, bien que cette fonctionnalité soit soumise à un processus d'approbation conforme aux politiques d'IA responsable de Microsoft. L'accès commence à 22 $ par million de caractères.
MAI-Image-2 est le modèle de génération d'images à partir de texte. Au moment de son lancement, il figurait parmi les trois premiers modèles de sa catégorie dans le classement Arena.ai. Microsoft indique qu'il offre des temps de génération au moins deux fois plus rapides que sa version précédente pour une qualité similaire. Le groupe de communication WPP l'utilise déjà pour ses flux de production créative à grande échelle. Le prix commence à 5 $ par million de tokens de texte en entrée et 33 $ par million de tokens d'image en sortie.
Les trois modèles ont fait l'objet d'évaluations internes et de tests de sécurité avant leur lancement, et sont déployés avec les contrôles de gouvernance propres à Microsoft Foundry.
Microsoft AI développe des modèles et produits d'intelligence artificielle axés sur la responsabilité, l'accessibilité et l'utilité pratique. Son travail englobe les modèles fondationnels, la ...
24/04/2026
DeepSeek lance en version préliminaire sa famille V4, deux modèles open source capables de traiter jusqu'à un million de tokens de contexte et de ...
23/04/2026
OpenAI lance GPT-5.5, un modèle conçu pour exécuter des tâches complexes de manière autonome : programmer, rechercher, analyser des données et ...
21/04/2026
OpenAI présente ChatGPT Images 2.0, un modèle de génération d'images offrant une meilleure précision, un support multilingue, des proportions ...
17/04/2026
Anthropic a lancé Claude Design, un outil permettant de créer des designs visuels, des prototypes interactifs et des présentations par ...