Une nouvelle startup d’intelligence artificielle, OpenAGI, est sortie de la furtivité avec des affirmations audacieuses : son agent d’IA, Lux, surpasse l’opérateur d’OpenAI et Claude d’Anthropic dans la capacité de contrôler les ordinateurs de manière autonome – et à un coût nettement inférieur. La société, fondée par Zengyi Qin, chercheur au MIT, lance Lux aux côtés d’un SDK de développement, dans le but de perturber le marché en évolution rapide des agents d’IA capables de naviguer dans des logiciels, d’automatiser des tâches et d’exécuter des flux de travail complexes.
La percée de référence : surperformer les modèles établis
OpenAGI affirme que Lux atteint un taux de réussite de 83,6 % au benchmark Online-Mind2Web, actuellement le test le plus exigeant du secteur pour les agents d’IA qui interagissent avec les interfaces informatiques. Ce chiffre dépasse largement Opérateur d’OpenAI (61,3%) et Claude Computer Use d’Anthropic (56,3%). Le benchmark Online-Mind2Web, développé par des chercheurs de l’Ohio State et de Berkeley, simule des scénarios réels sur 136 sites Web, testant des agents dans des environnements en ligne dynamiques et imprévisibles.
Pourquoi est-ce important : Des recherches indépendantes ont déjà remis en question les performances réelles des principaux agents d’IA, suggérant que les allégations marketing dépassent souvent les capacités du monde réel. Le benchmark Online-Mind2Web a été créé pour combler cette lacune, en fournissant une mesure plus rigoureuse de la véritable compétence des agents.
Une approche de formation différente : du texte à l’action
L’avantage d’OpenAGI, selon Qin, réside dans sa méthodologie « Agentic Active Pre-training ». Contrairement aux grands modèles de langage (LLM) traditionnels qui apprennent en prédisant le mot suivant dans une séquence, Lux est formé sur des captures d’écran d’ordinateur et des séquences d’action. Cette approche apprend au modèle à interpréter les interfaces visuelles et à déterminer les clics, les frappes et les étapes de navigation nécessaires pour atteindre des objectifs spécifiques.
“L’action permet au modèle d’explorer activement l’environnement informatique, et une telle exploration génère de nouvelles connaissances… conduisant à un meilleur modèle”, a expliqué Qin dans une interview. Cette boucle qui s’auto-renforce permet une amélioration continue sans s’appuyer uniquement sur des ensembles de données statiques massifs. La société affirme également que Lux fonctionne à environ un dixième du coût des modèles concurrents.
Au-delà du navigateur : contrôler les applications de bureau
L’un des principaux différenciateurs de Lux réside dans sa capacité à contrôler les applications sur l’ensemble d’un système d’exploitation de bureau, y compris les produits Slack, Excel et Adobe, et pas seulement dans les navigateurs Web. La plupart des agents commerciaux existants se limitent à des tâches basées sur un navigateur, excluant une vaste gamme de flux de travail de productivité. OpenAGI s’associe à Intel pour optimiser Lux pour les appareils de pointe, permettant une exécution locale sur les ordinateurs portables et les postes de travail sans dépendre de l’infrastructure cloud.
Le contexte plus large : La capacité de contrôler les applications de bureau élargit considérablement le marché adressable des agents informatiques, ce qui les rend plus utiles pour les tâches d’entreprise complexes.
Préoccupations en matière de sécurité et course à la création d’une IA fiable
Les agents informatiques introduisent de nouveaux défis en matière de sécurité. Une IA capable d’interagir avec des applications pourrait potentiellement causer des dommages si elle était mal orientée – transfert de fonds, suppression de fichiers ou exfiltration de données. OpenAGI prétend avoir intégré des protections dans Lux, refusant les actions qui violent ses politiques de sécurité et alertant l’utilisateur. Cependant, les chercheurs en sécurité ont déjà démontré des vulnérabilités dans les systèmes d’agents antérieurs, soulignant la nécessité de disposer de défenses robustes contre les attaques adverses.
Le fondateur : un historique de réussite en matière d’Open Source
Zengyi Qin apporte à OpenAGI une combinaison unique de rigueur académique et d’expérience entrepreneuriale. Il est titulaire d’un doctorat du MIT et a déjà construit des modèles d’IA largement adoptés, notamment JetMoE (surpassant le LLaMA2-7B de Meta à une fraction du coût) et OpenVoice (l’un des projets open source les plus populaires de GitHub). Sa précédente plateforme, MyShell, a attiré six millions d’utilisateurs qui ont collectivement créé plus de 200 000 agents IA.
La course au milliard de dollars : implications pour l’industrie
Le marché des agents informatiques a attiré d’intenses investissements de la part de géants de la technologie comme OpenAI, Anthropic, Google et Microsoft. Cependant, l’adoption par les entreprises a été limitée par des préoccupations concernant la fiabilité et la sécurité. L’affirmation d’OpenAGI selon laquelle des performances supérieures à moindre coût défie les acteurs établis, suggérant que l’innovation ne nécessite pas nécessairement les budgets les plus importants.
En fin de compte, il reste à voir si OpenAGI peut traduire son succès de référence en fiabilité dans le monde réel. L’industrie de l’IA a un historique de démonstrations prometteuses qui ne parviennent pas à être mises en production. Mais si Lux fonctionne comme annoncé, il pourrait redéfinir la voie vers des agents d’IA compétents, prouvant qu’une petite équipe dotée de la bonne approche peut rivaliser avec les géants de l’industrie.
