H Company llança Surfer 2, un agent dissenyat per executar tasques en entorns d'escriptori, web i mòbil. El sistema assoleix els millors resultats registrats en quatre proves de referència que avaluen capacitats de control i navegació en plataformes digitals.
La companyia H Company ha anunciat Surfer 2, un agent de 'computer-use' (ús d'ordinadors) capaç d'operar en múltiples plataformes digitals mitjançant interacció visual i tàctil. El sistema aconsegueix resultats rècord en quatre proves de referència que avaluen la capacitat d'agents d'intel·ligència artificial per controlar ordinadors, navegar per la web i gestionar dispositius mòbils.
L'arquitectura de Surfer 2 separa planificació estratègica d'execució tàctica mitjançant un mòdul orquestrador configurable que descompon tasques complexes en subtasques assignades a subagents especialitzats. Cada subagent reporta resultats a l'orquestrador, que determina el següent pas o replanteja l'estratègia en cas de fallada. El sistema pot operar amb o sense aquest mòdul segons la complexitat de la tasca, i inclou components dedicats a percepció visual, validació de tasques i recuperació davant fallades per garantir consistència en diferents entorns.
A OSWorld, una prova que mesura la capacitat per controlar un entorn d'escriptori Ubuntu, Surfer 2 assoleix un 60,1% d'èxit en el primer intent dins la categoria que permet únicament percepció visual i interacció. Amb deu intents, el sistema arriba al 77%, superant la línia base humana del 72,4%. A WebArena, que avalua agents en entorns web simulats que inclouen comerç electrònic, fòrums socials i plataformes de gestió de continguts, obté un 69,6% d'èxit.
A WebVoyager, una prova de recuperació d'informació en llocs web actius, Surfer 2 aconsegueix un 97,1% d'encert, millorant el registre anterior del 93,9%. A AndroidWorld, que mesura la capacitat per controlar dispositius Android i usar 20 aplicacions reals, assoleix un 87,1% d'èxit mitjançant visió i interacció tàctil, superant també la línia base humana del 80%.
H Company assenyala que els resultats de Surfer 2 provenen de la combinació de models de fonamentació externs amb els seus propis mètodes d'entrenament d'agents i infraestructura. La companyia indica que les execucions de Surfer 2 tenen costos elevats i treballa ara en Holo2, el seu següent model propietari dissenyat per oferir rendiment similar amb costos reduïts. Properament publicarà un informe tècnic complet sobre el rendiment i les avaluacions de Surfer 2.
Plataforma de desenvolupament d'agents d'intel·ligència artificial que automatitza tasques web complexes. Ofereix Runner H, un agent web capaç de comprendre instruccions en llenguatge natural, ...
17/04/2026
Anthropic ha llançat Claude Design, una eina que permet crear dissenys visuals, prototips interactius i presentacions mitjançant conversa amb el ...
17/04/2026
Anthropic publica Claude Opus 4.7, un model amb guanys notables en desenvolupament de programari, major resolució d'imatge i noves mesures de ...
08/04/2026
Meta Superintelligence Labs llança Muse Spark, un model multimodal d'intel·ligència artificial capaç de processar text i imatges alhora, amb un ...
07/04/2026
Anthropic ha presentat Project Glasswing, una iniciativa de ciberseguretat amb dotze grans empreses tecnològiques per utilitzar el seu nou model ...