Tres nous models MAI de Microsoft per a transcripció, generació de veu i imatge

02/04/2026

Microsoft presenta MAI-Transcribe-1, MAI-Voice-1 i MAI-Image-2, tres models especialitzats en transcripció, síntesi de veu i generació d'imatges disponibles ja a Microsoft Foundry.

Tres nous models MAI de Microsoft per a transcripció, generació de veu i imatge

Microsoft ha posat a disposició dels desenvolupadors tres nous models d'intel·ligència artificial propis, agrupats sota la marca MAI. Es tracta de MAI-Transcribe-1, per a la transcripció de veu a text; MAI-Voice-1, per a la generació d'àudio, i MAI-Image-2, per a la creació d'imatges a partir de text. Els tres estan disponibles a Microsoft Foundry, la plataforma de desenvolupament d'aplicacions d'IA de l'empresa, i ja alimenten productes propis com Copilot, Bing o PowerPoint.

MAI-Transcribe-1 és el model de transcripció de veu de Microsoft. Funciona en les 25 llengües més utilitzades als productes de l'empresa i està dissenyat per a condicions d'àudio reals: soroll de fons, enregistraments de baixa qualitat i veus superposades. Segons el benchmark FLEURS, estàndard del sector, supera Whisper-large-v3 i GPT-Transcribe d'OpenAI, Scribe v2 d'ElevenLabs i Gemini 3.1 Flash-Lite de Google en les 25 llengües analitzades, amb un cost de GPU aproximadament un 50% inferior al de les alternatives comparables. Microsoft ja l'utilitza en el mode de veu de Copilot i en les transcripcions de Microsoft Teams. El preu a Foundry comença a 0,36 dòlars per hora.

MAI-Voice-1 s'ocupa de la generació de veu sintètica a partir de text. El model és capaç de produir un minut d'àudio en menys d'un segon sobre una sola unitat de processament gràfic. Incorpora la possibilitat de clonar una veu a partir d'una mostra d'àudio d'només deu segons, tot i que aquesta funció està subjecta a un procés d'aprovació d'acord amb les polítiques d'ús responsable de Microsoft. L'accés comença a 22 dòlars per milió de caràcters.

MAI-Image-2 és el model de generació d'imatges a partir de text. En el moment del seu llançament figurava entre els tres primers models de la seva categoria al classificador Arena.ai. Microsoft indica que ofereix temps de generació almenys el doble de ràpids que la seva versió anterior amb una qualitat similar. El grup de publicitat i comunicació WPP ja l'utilitza per a fluxos de treball de producció creativa a escala. El preu comença a 5 dòlars per milió de tokens de text d'entrada i 33 dòlars per milió de tokens d'imatge de sortida.

Els tres models han passat per processos d'avaluació interna i proves de seguretat abans del seu llançament, i es despleguen amb els controls de governança i compliment propis de Microsoft Foundry.

Punts clau

  • Microsoft llança tres models d'IA propis —MAI-Transcribe-1, MAI-Voice-1 i MAI-Image-2— disponibles a Microsoft Foundry.
  • MAI-Transcribe-1 supera en precisió els models de transcripció d'OpenAI, ElevenLabs i Google en 25 llengües, segons el benchmark FLEURS.
  • Funciona bé en condicions d'àudio difícils: soroll, baixa qualitat i veus superposades.
  • MAI-Voice-1 genera un minut d'àudio en menys d'un segon i permet clonar veus amb mostres de deu segons.
  • MAI-Image-2 és el doble de ràpid que la seva versió anterior i es va situar entre els tres primers al classificador Arena.ai.
  • Els tres models ja estan integrats a Copilot, Bing, PowerPoint i Microsoft Teams.

IA relacionada

Microsoft AI

Models fundacionals i aplicacions

Microsoft AI desenvolupa models i productes d'intel·ligència artificial amb èmfasi en responsabilitat, accessibilitat i utilitat pràctica. El seu treball abasta models fundacionals, generació de ...

Últimes noticies

Trustpilot
Aquest lloc web utilitza cookies tècniques, de personalització i anàlisi, pròpies i de tercers, per facilitar la navegació anònima i analitzar estadístiques d’ús del web. Considerem que si continueu navegant, n’accepteu l’ús.