H Company llança Surfer 2, un agent dissenyat per executar tasques en entorns d'escriptori, web i mòbil. El sistema assoleix els millors resultats registrats en quatre proves de referència que avaluen capacitats de control i navegació en plataformes digitals.
La companyia H Company ha anunciat Surfer 2, un agent de 'computer-use' (ús d'ordinadors) capaç d'operar en múltiples plataformes digitals mitjançant interacció visual i tàctil. El sistema aconsegueix resultats rècord en quatre proves de referència que avaluen la capacitat d'agents d'intel·ligència artificial per controlar ordinadors, navegar per la web i gestionar dispositius mòbils.
L'arquitectura de Surfer 2 separa planificació estratègica d'execució tàctica mitjançant un mòdul orquestrador configurable que descompon tasques complexes en subtasques assignades a subagents especialitzats. Cada subagent reporta resultats a l'orquestrador, que determina el següent pas o replanteja l'estratègia en cas de fallada. El sistema pot operar amb o sense aquest mòdul segons la complexitat de la tasca, i inclou components dedicats a percepció visual, validació de tasques i recuperació davant fallades per garantir consistència en diferents entorns.
A OSWorld, una prova que mesura la capacitat per controlar un entorn d'escriptori Ubuntu, Surfer 2 assoleix un 60,1% d'èxit en el primer intent dins la categoria que permet únicament percepció visual i interacció. Amb deu intents, el sistema arriba al 77%, superant la línia base humana del 72,4%. A WebArena, que avalua agents en entorns web simulats que inclouen comerç electrònic, fòrums socials i plataformes de gestió de continguts, obté un 69,6% d'èxit.
A WebVoyager, una prova de recuperació d'informació en llocs web actius, Surfer 2 aconsegueix un 97,1% d'encert, millorant el registre anterior del 93,9%. A AndroidWorld, que mesura la capacitat per controlar dispositius Android i usar 20 aplicacions reals, assoleix un 87,1% d'èxit mitjançant visió i interacció tàctil, superant també la línia base humana del 80%.
H Company assenyala que els resultats de Surfer 2 provenen de la combinació de models de fonamentació externs amb els seus propis mètodes d'entrenament d'agents i infraestructura. La companyia indica que les execucions de Surfer 2 tenen costos elevats i treballa ara en Holo2, el seu següent model propietari dissenyat per oferir rendiment similar amb costos reduïts. Properament publicarà un informe tècnic complet sobre el rendiment i les avaluacions de Surfer 2.
Plataforma de desenvolupament d'agents d'intel·ligència artificial que automatitza tasques web complexes. Ofereix Runner H, un agent web capaç de comprendre instruccions en llenguatge natural, ...
07/11/2025
Freepik avança en la seva estratègia d'IA presentant Spaces, una eina que integra les seves funcions d'intel·ligència artificial en un entorn de ...
29/10/2025
Google ha actualitzat NotebookLM ampliant significativament la seva capacitat per processar col·leccions extenses de documents i afegint opcions de ...
26/10/2025
Google ha incorporat una nova funcionalitat a AI Studio que permet generar aplicacions amb intel·ligència artificial mitjançant descripcions en ...
24/10/2025
Mistral AI presenta AI Studio, una plataforma que ajuda les empreses a passar de l'experimentació a l'operació fiable de sistemes ...