H Company lance Surfer 2, un agent conçu pour exécuter des tâches dans des environnements de bureau, web et mobile. Le système atteint les meilleurs résultats enregistrés dans quatre tests de référence qui évaluent les capacités de contrôle et de navigation sur les plateformes numériques.
La société H Company a annoncé Surfer 2, un agent de 'computer-use' (utilisation d'ordinateurs) capable d'opérer sur plusieurs plateformes numériques via interaction visuelle et tactile. Le système obtient des résultats record dans quatre tests de référence qui évaluent la capacité des agents d'intelligence artificielle à contrôler des ordinateurs, naviguer sur le web et gérer des appareils mobiles.
L'architecture de Surfer 2 sépare la planification stratégique de l'exécution tactique via un module orchestrateur configurable qui décompose les tâches complexes en sous-tâches assignées à des sous-agents spécialisés. Chaque sous-agent rapporte les résultats à l'orchestrateur, qui détermine l'étape suivante ou replanifie la stratégie en cas d'échec. Le système peut fonctionner avec ou sans ce module selon la complexité de la tâche, et comprend des composants dédiés à la perception visuelle, la validation des tâches et la récupération en cas d'échec pour garantir la cohérence dans différents environnements.
Dans OSWorld, un test mesurant la capacité à contrôler un environnement de bureau Ubuntu, Surfer 2 atteint 60,1% de succès à la première tentative dans la catégorie permettant uniquement la perception visuelle et l'interaction. Avec dix tentatives, le système atteint 77%, dépassant la ligne de base humaine de 72,4%. Dans WebArena, qui évalue les agents dans des environnements web simulés incluant commerce électronique, forums sociaux et plateformes de gestion de contenu, il obtient 69,6% de succès.
Dans WebVoyager, un test de récupération d'informations sur des sites web actifs, Surfer 2 atteint 97,1% de précision, améliorant le précédent record de 93,9%. Dans AndroidWorld, qui mesure la capacité à contrôler des appareils Android et utiliser 20 applications réelles, il atteint 87,1% de succès via vision et interaction tactile, dépassant également la ligne de base humaine de 80%.
H Company indique que les résultats de Surfer 2 proviennent de la combinaison de modèles de fondation externes avec ses propres méthodes d'entraînement d'agents et infrastructure. La société indique que les exécutions de Surfer 2 ont des coûts élevés et travaille maintenant sur Holo2, son prochain modèle propriétaire conçu pour offrir des performances similaires à coûts réduits. Elle publiera prochainement un rapport technique complet sur les performances et évaluations de Surfer 2.
Plateforme de développement d'agents d'intelligence artificielle qui automatise des tâches web complexes. Propose Runner H, un agent web capable de comprendre des instructions en langage naturel, ...
15/01/2026
Replit a lancé Mobile Apps on Replit, une fonctionnalité qui permet de décrire une idée, créer l'application et la publier complètement sur ...
14/01/2026
Google a présenté Personal Intelligence, une fonctionnalité qui permet à Gemini d'accéder aux informations d'applications comme Gmail, Google ...
07/01/2026
OpenAI a présenté ChatGPT Health, une expérience dédiée qui permet aux utilisateurs de connecter leurs dossiers médicaux et applications de ...
05/01/2026
Amazon présente Alexa.com, une nouvelle plateforme qui amène son assistant d'intelligence artificielle Alexa+ au navigateur web et complète sa ...