OpenAI assoleix màxims en benchmarks de programació i tasques professionals amb el nou GPT-5.2

11/12/2025

OpenAI ha presentat GPT-5.2, el seu nou model que assoleix els millors resultats en diversos benchmarks de la indústria en àrees com programació, anàlisi de documents, ús d'eines i reducció d'al·lucinacions.

OpenAI assoleix màxims en benchmarks de programació i tasques professionals amb el nou GPT-5.2

El nou model s'orienta principalment cap a l'entorn empresarial i professional, posicionant-se com el més avançat disponible actualment segons diversos benchmarks de la indústria. OpenAI destaca que GPT-5.2 estableix nous rècords en àrees com treball professional, enginyeria de programari i anàlisi de contextos extensos.

El model inclou tres variants: Instant, Thinking i Pro. Instant s'orienta a l'ús diari i consultes ràpides, Thinking està pensat per a tasques complexes que requereixen major profunditat d'anàlisi, i Pro ofereix el màxim nivell de qualitat per a preguntes difícils on es prioritza la precisió sobre la velocitat.

En el benchmark GDPval, que avalua tasques de coneixement especialitzat en 44 ocupacions, GPT-5.2 Thinking iguala o supera a professionals experts en el 70,9% dels casos. Les tasques inclouen la creació de presentacions i fulls de càlcul que el model completa a una velocitat onze vegades superior i a menys de l'1% del cost respecte al treball humà especialitzat.

Una de les millores més significatives es troba en la programació. GPT-5.2 Thinking assoleix un 55,6% en SWE-Bench Pro, un benchmark que avalua la resolució de problemes reals d'enginyeria de programari en quatre llenguatges. En tasques de modelatge financer amb fulls de càlcul, la precisió augmenta del 59,1% al 68,4%. Usuaris de prova han destacat millores notables en el desenvolupament d'interfícies complexes amb elements tridimensionals.

El model amplia la seva capacitat per treballar amb documents extensos, assolint gairebé el 100% de precisió en l'anàlisi d'informació distribuïda al llarg de fins a 256.000 tokens, equivalent a diversos centenars de pàgines. Aquesta característica resulta especialment útil per analitzar contractes, informes tècnics o projectes amb múltiples arxius.

En processament visual, el model redueix aproximadament a la meitat la taxa d'errors en la interpretació de gràfics científics. La precisió en l'anàlisi de captures de pantalla professionals augmenta del 64,2% al 86,3%, facilitant l'anàlisi de dashboards i diagrames tècnics.

OpenAI reporta una reducció del 30% en al·lucinacions comparat amb la versió anterior. En matemàtiques de nivell avançat, GPT-5.2 Thinking resol el 40,3% dels problemes de FrontierMath, enfront del 31% de GPT-5.1. El model també millora en la coordinació de múltiples eines, assolint un 98,7% de precisió en tasques d'atenció al client que requereixen diversos passos.

GPT-5.2 està disponible des d'avui a ChatGPT per a usuaris de plans de pagament i a l'API per a tots els desenvolupadors. OpenAI ha fixat un preu a l'API superior al de GPT-5.1 per token, encara que es manté per sota d'altres models de referència del mercat. La companyia indica que, malgrat l'increment per token, el cost final per assolir un nivell de qualitat determinat resulta inferior degut a la major eficiència del nou model.

Punts clau

  • GPT-5.2 estableix nous rècords en múltiples benchmarks de la indústria
  • GPT-5.2 Thinking iguala o supera a professionals experts en el 70,9% de tasques de treball especialitzat en 44 ocupacions diferents
  • El model assoleix un 55,6% en SWE-Bench Pro, establint un nou rècord en resolució de problemes reals d'enginyeria de programari
  • Disponible en tres variants: Instant per a ús ràpid, Thinking per a anàlisi profunda i Pro per a màxima precisió
  • Redueix en un 30% les al·lucinacions comparat amb GPT-5.1 Thinking
  • Assoleix gairebé el 100% de precisió en anàlisi de documents de fins a 256.000 tokens (equivalent a centenars de pàgines)
  • Millora del 64,2% al 86,3% en comprensió d'interfícies gràfiques i captures de pantalla professionals
  • Resol el 40,3% de problemes matemàtics de nivell expert, enfront del 31% del seu predecessor
  • Preu en API superior a GPT-5.1 però inferior a altres models de referència del mercat

IA relacionada

ChatGPT

L'assistent d'IA

ChatGPT t'ajuda a obtenir respostes, trobar inspiració i ser més productiu. És gratuït i fàcil de provar. Només has de preguntar, i ChatGPT pot ajudar-te amb l'escriptura, l'aprenentatge, la ...

OpenAI

Investigació i desenvolupament en IA responsable

OpenAI desenvolupa intel·ligència artificial amb un enfocament en la seguretat i el benefici social. La companyia integra investigació avançada i principis ètics per impulsar tecnologies d'IA de ...

Últimes noticies

Trustpilot
Aquest lloc web utilitza cookies tècniques, de personalització i anàlisi, pròpies i de tercers, per facilitar la navegació anònima i analitzar estadístiques d’ús del web. Considerem que si continueu navegant, n’accepteu l’ús.