Una nueva startup de inteligencia artificial, OpenAGI, ha surgido del sigilo con afirmaciones audaces: su agente de inteligencia artificial, Lux, supera a Operador de OpenAI y Claude de Anthropic en la capacidad de controlar computadoras de forma autónoma, y a un costo significativamente menor. La compañía, fundada por el investigador del MIT Zengyi Qin, está lanzando Lux junto con un SDK para desarrolladores, con el objetivo de revolucionar el mercado en rápida evolución de agentes de inteligencia artificial capaces de navegar por software, automatizar tareas y ejecutar flujos de trabajo complejos.
El avance de referencia: superar los modelos establecidos
OpenAGI afirma que Lux logra una tasa de éxito del 83,6% en el punto de referencia Online-Mind2Web, actualmente la prueba más exigente de la industria para agentes de IA que interactúan con interfaces de computadora. Esta cifra supera significativamente a Operador de OpenAI (61,3%) y Claude Computer Use de Anthropic (56,3%). El punto de referencia Online-Mind2Web, desarrollado por investigadores de Ohio State y Berkeley, simula escenarios del mundo real en 136 sitios web, probando agentes en entornos en línea dinámicos e impredecibles.
Por qué esto es importante: Investigaciones independientes han cuestionado anteriormente el desempeño real de los principales agentes de IA, sugiriendo que las afirmaciones de marketing a menudo superan las capacidades del mundo real. El punto de referencia Online-Mind2Web se creó para abordar esta brecha, proporcionando una medida más rigurosa de la verdadera competencia de los agentes.
Un enfoque de formación diferente: del texto a la acción
La ventaja de OpenAGI, según Qin, radica en su metodología de “preentrenamiento activo agente”. A diferencia de los modelos de lenguaje grande (LLM) tradicionales que aprenden prediciendo la siguiente palabra en una secuencia, Lux se entrena con capturas de pantalla de computadora y secuencias de acción. Este enfoque enseña al modelo a interpretar interfaces visuales y determinar los clics, pulsaciones de teclas y pasos de navegación necesarios para lograr objetivos específicos.
“La acción permite que el modelo explore activamente el entorno informático, y dicha exploración genera nuevos conocimientos… que conducen a un mejor modelo”, explicó Qin en una entrevista. Este bucle que se refuerza a sí mismo permite la mejora continua sin depender únicamente de conjuntos de datos estáticos masivos. La compañía también afirma que Lux opera a aproximadamente una décima parte del costo de los modelos de la competencia.
Más allá del navegador: control de aplicaciones de escritorio
Un diferenciador clave para Lux es su capacidad para controlar aplicaciones en todo un sistema operativo de escritorio, incluidos los productos Slack, Excel y Adobe, no solo dentro de los navegadores web. La mayoría de los agentes comerciales existentes se limitan a tareas basadas en navegador, excluyendo una amplia gama de flujos de trabajo de productividad. OpenAGI se está asociando con Intel para optimizar Lux para dispositivos perimetrales, permitiendo la ejecución local en computadoras portátiles y estaciones de trabajo sin depender de la infraestructura de la nube.
El contexto más amplio: La capacidad de controlar aplicaciones de escritorio amplía significativamente el mercado al que se dirigen los agentes de uso informático, haciéndolos más valiosos para tareas empresariales complejas.
Preocupaciones por la seguridad y la carrera por construir una IA confiable
Los agentes de uso de computadoras presentan nuevos desafíos de seguridad. Una IA capaz de interactuar con aplicaciones podría causar daños si se la dirige incorrectamente: transferir fondos, eliminar archivos o extraer datos. OpenAGI afirma haber incorporado medidas de seguridad en Lux, rechazando acciones que violen sus políticas de seguridad y alertando al usuario. Sin embargo, los investigadores de seguridad ya han demostrado vulnerabilidades en sistemas de agentes anteriores, destacando la necesidad de contar con defensas sólidas contra ataques adversarios.
El fundador: un historial de éxito del código abierto
Zengyi Qin aporta una combinación única de rigor académico y experiencia empresarial a OpenAGI. Tiene un doctorado del MIT y anteriormente ha creado modelos de IA ampliamente adoptados, incluido JetMoE (superando al LLaMA2-7B de Meta por una fracción del costo) y OpenVoice (uno de los proyectos de código abierto más populares de GitHub). Su plataforma anterior, MyShell, atrajo a seis millones de usuarios que en conjunto crearon más de 200.000 agentes de IA.
La carrera de los mil millones de dólares: implicaciones para la industria
El mercado de agentes de uso informático ha atraído intensas inversiones de gigantes tecnológicos como OpenAI, Anthropic, Google y Microsoft. Sin embargo, la adopción empresarial se ha visto limitada por preocupaciones sobre la confiabilidad y la seguridad. La afirmación de OpenAGI de un rendimiento superior a un costo menor desafía a los actores establecidos, sugiriendo que la innovación no necesariamente requiere los mayores presupuestos.
En última instancia, aún está por verse si OpenAGI puede traducir su éxito de referencia en confiabilidad en el mundo real. La industria de la IA tiene un historial de demostraciones prometedoras que no logran funcionar en producción. Pero si Lux funciona como se anuncia, podría redefinir el camino hacia agentes de IA capaces, demostrando que un equipo pequeño con el enfoque correcto puede competir con los gigantes de la industria.
























