Microsoft presenta MAI-Transcribe-1, MAI-Voice-1 i MAI-Image-2, tres models especialitzats en transcripció, síntesi de veu i generació d'imatges disponibles ja a Microsoft Foundry.
Microsoft ha posat a disposició dels desenvolupadors tres nous models d'intel·ligència artificial propis, agrupats sota la marca MAI. Es tracta de MAI-Transcribe-1, per a la transcripció de veu a text; MAI-Voice-1, per a la generació d'àudio, i MAI-Image-2, per a la creació d'imatges a partir de text. Els tres estan disponibles a Microsoft Foundry, la plataforma de desenvolupament d'aplicacions d'IA de l'empresa, i ja alimenten productes propis com Copilot, Bing o PowerPoint.
MAI-Transcribe-1 és el model de transcripció de veu de Microsoft. Funciona en les 25 llengües més utilitzades als productes de l'empresa i està dissenyat per a condicions d'àudio reals: soroll de fons, enregistraments de baixa qualitat i veus superposades. Segons el benchmark FLEURS, estàndard del sector, supera Whisper-large-v3 i GPT-Transcribe d'OpenAI, Scribe v2 d'ElevenLabs i Gemini 3.1 Flash-Lite de Google en les 25 llengües analitzades, amb un cost de GPU aproximadament un 50% inferior al de les alternatives comparables. Microsoft ja l'utilitza en el mode de veu de Copilot i en les transcripcions de Microsoft Teams. El preu a Foundry comença a 0,36 dòlars per hora.
MAI-Voice-1 s'ocupa de la generació de veu sintètica a partir de text. El model és capaç de produir un minut d'àudio en menys d'un segon sobre una sola unitat de processament gràfic. Incorpora la possibilitat de clonar una veu a partir d'una mostra d'àudio d'només deu segons, tot i que aquesta funció està subjecta a un procés d'aprovació d'acord amb les polítiques d'ús responsable de Microsoft. L'accés comença a 22 dòlars per milió de caràcters.
MAI-Image-2 és el model de generació d'imatges a partir de text. En el moment del seu llançament figurava entre els tres primers models de la seva categoria al classificador Arena.ai. Microsoft indica que ofereix temps de generació almenys el doble de ràpids que la seva versió anterior amb una qualitat similar. El grup de publicitat i comunicació WPP ja l'utilitza per a fluxos de treball de producció creativa a escala. El preu comença a 5 dòlars per milió de tokens de text d'entrada i 33 dòlars per milió de tokens d'imatge de sortida.
Els tres models han passat per processos d'avaluació interna i proves de seguretat abans del seu llançament, i es despleguen amb els controls de governança i compliment propis de Microsoft Foundry.
Microsoft AI desenvolupa models i productes d'intel·ligència artificial amb èmfasi en responsabilitat, accessibilitat i utilitat pràctica. El seu treball abasta models fundacionals, generació de ...
24/04/2026
DeepSeek llança en versió preliminar la seva família V4, dos models de codi obert capaços de processar fins a un milió de tokens de context i ...
23/04/2026
OpenAI llança GPT-5.5, un model dissenyat per executar tasques complexes de forma autònoma: programar, investigar, analitzar dades i operar ...
21/04/2026
OpenAI presenta ChatGPT Images 2.0, un model de generació d'imatges amb més precisió, suport multilingüe, proporcions flexibles i, per primera ...
17/04/2026
Anthropic ha llançat Claude Design, una eina que permet crear dissenys visuals, prototips interactius i presentacions mitjançant conversa amb el ...