Anthropic lanza Claude Sonnet 4.5 con mejoras en código y gran avance en uso de ordenadores

29/09/2025

Anthropic ha presentado Claude Sonnet 4.5, su nuevo modelo de inteligencia artificial que lidera las evaluaciones de programación y uso de ordenadores. El lanzamiento incluye actualizaciones en Claude Code, la API y las aplicaciones, además del nuevo Claude Agent SDK para desarrolladores.

Anthropic lanza Claude Sonnet 4.5 con mejoras en código y gran avance en uso de ordenadores

Claude Sonnet 4.5 lidera las evaluaciones de capacidades de programación y uso de ordenadores en condiciones reales. En SWE-bench Verified, una prueba que mide habilidades de codificación en situaciones reales, el modelo alcanza un 82,0%. En OSWorld, que evalúa la capacidad para realizar tareas informáticas reales, alcanza un 61,4%, frente al 42,2% que conseguía Claude Sonnet 4 hace cuatro meses. Según Anthropic, el modelo puede mantener el foco durante más de 30 horas en tareas complejas de múltiples pasos.

El lanzamiento incluye actualizaciones significativas en los productos de la compañía. Claude Code, la herramienta de línea de comandos para desarrolladores, incorpora puntos de control que permiten guardar el progreso y volver a estados anteriores de forma instantánea. La interfaz de terminal se ha renovado completamente y se ha lanzado una extensión nativa para VS Code. La API de Claude añade funciones de edición de contexto y memoria que permiten a los agentes ejecutar tareas de mayor duración y complejidad.

Las aplicaciones de Claude integran ahora ejecución de código y creación de archivos directamente en las conversaciones. Los usuarios pueden generar hojas de cálculo, presentaciones y documentos sin salir del chat. La extensión Claude para Chrome, disponible para suscriptores Max que se unieron a la lista de espera el mes pasado, permite al modelo navegar por sitios web, rellenar hojas de cálculo y completar tareas directamente en el navegador.

Junto al modelo, Anthropic lanza el Claude Agent SDK, la infraestructura que utiliza internamente para desarrollar Claude Code. El kit proporciona a los desarrolladores herramientas para construir agentes de IA, incluyendo sistemas de gestión de memoria para tareas de larga duración, permisos que equilibran autonomía y control del usuario, y coordinación de subagentes que trabajan hacia objetivos comunes. Aunque Claude Code se centra en programación, el SDK puede aplicarse a una variedad amplia de tareas.

En cuanto a alineación y seguridad, Anthropic describe este como su modelo más alineado hasta la fecha. Las evaluaciones internas muestran reducciones significativas en comportamientos problemáticos como adulación excesiva, engaño, búsqueda de poder y tendencia a fomentar pensamiento delirante. Para las capacidades de agentes y uso de ordenadores, se han implementado defensas contra ataques de inyección de prompts.

El modelo se publica bajo las protecciones AI Safety Level 3, que incluyen clasificadores para detectar contenidos potencialmente peligrosos relacionados con armas químicas, biológicas, radiológicas y nucleares. Estos clasificadores pueden identificar ocasionalmente contenido normal de forma incorrecta, por lo que Anthropic ha facilitado que los usuarios continúen conversaciones interrumpidas con Sonnet 4, un modelo que presenta menor riesgo en este ámbito.

Expertos en finanzas, derecho, medicina y disciplinas STEM han evaluado el modelo y encontrado mejoras notables en conocimiento específico de dominio y razonamiento comparado con modelos anteriores, incluido Opus 4.1. Anthropic ha publicado evaluaciones detalladas de seguridad y alineación que, por primera vez, incluyen pruebas con técnicas de interpretabilidad mecanicista.

El modelo está disponible desde hoy a través de la API de Claude con el identificador claude-sonnet-4-5, manteniendo la misma estructura de precios que su predecesor. Anthropic recomienda actualizar a Claude Sonnet 4.5 para todos los usos, ya que funciona como reemplazo directo con rendimiento mejorado.

Puntos clave

  • Claude Sonnet 4.5 alcanza un 82,0% en SWE-bench Verified y un 61,4% en OSWorld, liderando las evaluaciones de programación y uso de ordenadores
  • El modelo puede mantener el foco durante más de 30 horas en tareas complejas de múltiples pasos
  • Anthropic lanza el Claude Agent SDK, la infraestructura que utiliza internamente para desarrollar sus productos, ahora disponible para desarrolladores
  • Claude Code incorpora puntos de control para guardar progreso, interfaz renovada y extensión nativa para VS Code
  • Las aplicaciones de Claude permiten ejecutar código y crear archivos (hojas de cálculo, presentaciones, documentos) directamente en las conversaciones
  • La API añade funciones de memoria y edición de contexto para que los agentes ejecuten tareas de mayor duración y complejidad
  • El modelo muestra reducciones significativas en comportamientos no alineados como adulación, engaño y búsqueda de poder según evaluaciones internas
  • Se implementan defensas contra ataques de inyección de prompts y clasificadores para detectar contenidos relacionados con armas CBRN bajo protecciones AI Safety Level 3

Vídeos

IA relacionada

Anthropic

Sistemas de IA en los que confiar

Anthropic desarrolla sistemas de inteligencia artificial fiables e interpretables desde un enfoque científico de seguridad. La compañía integra investigación avanzada y colaboración ...

Claude

Crea con Claude

Claude es un sistema de IA conversacional de Anthropic diseñado para procesar lenguaje natural e imágenes, proporcionando análisis, razonamiento lógico, generación de código y comunicación ...

Claude Code

Asistente de codificación en terminal

Claude Code es una herramienta de codificación agéntica para terminal que integra IA en el flujo de desarrollo. Permite editar archivos, resolver problemas, ejecutar pruebas y gestionar git ...

Últimas noticias

Trustpilot
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.