Anthropic llança Claude Sonnet 4.5 amb millores en codi i gran avenç en ús d’ordinadors

29/09/2025

Anthropic ha presentat Claude Sonnet 4.5, el seu nou model d'intel·ligència artificial que lidera les avaluacions de programació i ús d'ordinadors. El llançament inclou actualitzacions a Claude Code, l'API i les aplicacions, a més del nou Claude Agent SDK per a desenvolupadors.

Anthropic llança Claude Sonnet 4.5 amb millores en codi i gran avenç en ús d’ordinadors

Claude Sonnet 4.5 lidera les avaluacions de capacitats de programació i ús d'ordinadors en condicions reals. A SWE-bench Verified, una prova que mesura habilitats de codificació en situacions reals, el model arriba al 82,0%. A OSWorld, que avalua la capacitat per realitzar tasques informàtiques reals, arriba al 61,4%, enfront del 42,2% que aconseguia Claude Sonnet 4 fa quatre mesos. Segons Anthropic, el model pot mantenir el focus durant més de 30 hores en tasques complexes de múltiples passos.

El llançament inclou actualitzacions significatives en els productes de la companyia. Claude Code, l'eina de línia de comandes per a desenvolupadors, incorpora punts de control que permeten guardar el progrés i tornar a estats anteriors de forma instantània. La interfície de terminal s'ha renovat completament i s'ha llançat una extensió nativa per a VS Code. L'API de Claude afegeix funcions d'edició de context i memòria que permeten als agents executar tasques de major durada i complexitat.

Les aplicacions de Claude integren ara execució de codi i creació d'arxius directament a les converses. Els usuaris poden generar fulls de càlcul, presentacions i documents sense sortir del xat. L'extensió Claude per a Chrome, disponible per a subscriptors Max que es van unir a la llista d'espera el mes passat, permet al model navegar per llocs web, emplenar fulls de càlcul i completar tasques directament al navegador.

Al costat del model, Anthropic llança el Claude Agent SDK, la infraestructura que utilitza internament per desenvolupar Claude Code. El kit proporciona als desenvolupadors eines per construir agents d'IA, incloent sistemes de gestió de memòria per a tasques de llarga durada, permisos que equilibren autonomia i control de l'usuari, i coordinació de subagents que treballen cap a objectius comuns. Tot i que Claude Code se centra en programació, el SDK pot aplicar-se a una àmplia varietat de tasques.

Quant a alineació i seguretat, Anthropic descriu aquest com el seu model més alineat fins ara. Les avaluacions internes mostren reduccions significatives en comportaments problemàtics com adulació excessiva, engany, cerca de poder i tendència a fomentar pensament delirant. Per a les capacitats d'agents i ús d'ordinadors, s'han implementat defenses contra atacs d'injecció de prompts.

El model es publica sota les proteccions AI Safety Level 3, que inclouen classificadors per detectar continguts potencialment perillosos relacionats amb armes químiques, biològiques, radiològiques i nuclears. Aquests classificadors poden identificar ocasionalment contingut normal de forma incorrecta, per la qual cosa Anthropic ha facilitat que els usuaris continuïn converses interrompudes amb Sonnet 4, un model que presenta menor risc en aquest àmbit.

Experts en finances, dret, medicina i disciplines STEM han avaluat el model i han trobat millores notables en coneixement específic de domini i raonament comparat amb models anteriors, inclòs Opus 4.1. Anthropic ha publicat avaluacions detallades de seguretat i alineació que, per primera vegada, inclouen proves amb tècniques d'interpretabilitat mecanicista.

El model està disponible des d'avui a través de l'API de Claude amb l'identificador claude-sonnet-4-5, mantenint la mateixa estructura de preus que el seu predecessor. Anthropic recomana actualitzar a Claude Sonnet 4.5 per a tots els usos, ja que funciona com a reemplaçament directe amb rendiment millorat.

Punts clau

  • Claude Sonnet 4.5 arriba al 82,0% a SWE-bench Verified i al 61,4% a OSWorld, liderant les avaluacions de programació i ús d'ordinadors
  • El model pot mantenir el focus durant més de 30 hores en tasques complexes de múltiples passos
  • Anthropic llança el Claude Agent SDK, la infraestructura que utilitza internament per desenvolupar els seus productes, ara disponible per a desenvolupadors
  • Claude Code incorpora punts de control per guardar progrés, interfície renovada i extensió nativa per a VS Code
  • Les aplicacions de Claude permeten executar codi i crear arxius (fulls de càlcul, presentacions, documents) directament a les converses
  • L'API afegeix funcions de memòria i edició de context perquè els agents executin tasques de major durada i complexitat
  • El model mostra reduccions significatives en comportaments no alineats com adulació, engany i cerca de poder segons avaluacions internes
  • • S'implementen defenses contra atacs d'injecció de prompts i classificadors per detectar continguts relacionats amb armes CBRN sota proteccions AI Safety Level 3

Vídeos

IA relacionada

Anthropic

Sistemes d'IA en els quals confiar

Anthropic desenvolupa sistemes d'intel·ligència artificial fiables i interpretables des d'un enfocament científic de seguretat. La companyia integra recerca avançada i col·laboració ...

Claude

Crea amb Claude

Claude és un sistema d'IA conversacional d'Anthropic dissenyat per processar llenguatge natural i imatges, proporcionant anàlisi, raonament lògic, generació de codi i comunicació multilingüe ...

Claude Code

Assistent de codificació en terminal

Claude Code és una eina de codificació agèntica per a terminal que integra IA en el flux de desenvolupament. Permet editar arxius, resoldre problemes, executar proves i gestionar git mitjançant ...

Últimes noticies

Trustpilot
Aquest lloc web utilitza cookies tècniques, de personalització i anàlisi, pròpies i de tercers, per facilitar la navegació anònima i analitzar estadístiques d’ús del web. Considerem que si continueu navegant, n’accepteu l’ús.