Uma nova startup de inteligência artificial, OpenAGI, emergiu furtivamente com afirmações ousadas: seu agente de IA, Lux, supera o Operador da OpenAI e Claude da Anthropic na capacidade de controlar computadores de forma autônoma – e a um custo significativamente menor. A empresa, fundada pelo pesquisador do MIT Zengyi Qin, está lançando Lux junto com um SDK de desenvolvedor, com o objetivo de revolucionar o mercado em rápida evolução de agentes de IA capazes de navegar em software, automatizar tarefas e executar fluxos de trabalho complexos.
O avanço do benchmark: superando modelos estabelecidos
A OpenAGI afirma que Lux atinge uma taxa de sucesso de 83,6% no benchmark Online-Mind2Web, atualmente o teste mais exigente do setor para agentes de IA que interagem com interfaces de computador. Este número excede significativamente o Operador da OpenAI (61,3%) e o Claude Computer Use da Anthropic (56,3%). O benchmark Online-Mind2Web, desenvolvido por pesquisadores da Ohio State e Berkeley, simula cenários do mundo real em 136 sites, testando agentes em ambientes online dinâmicos e imprevisíveis.
Por que isso é importante: Pesquisas independentes questionaram anteriormente o desempenho real dos principais agentes de IA, sugerindo que as afirmações de marketing muitas vezes superam as capacidades do mundo real. O benchmark Online-Mind2Web foi criado para suprir essa lacuna, fornecendo uma medida mais rigorosa da verdadeira competência do agente.
Uma abordagem de treinamento diferente: do texto à ação
A vantagem do OpenAGI, segundo Qin, está em sua metodologia “Agentic Active Pre-training”. Ao contrário dos modelos tradicionais de linguagem grande (LLMs) que aprendem prevendo a próxima palavra em uma sequência, Lux é treinado em capturas de tela de computador e sequências de ação. Essa abordagem ensina o modelo a interpretar interfaces visuais e determinar os cliques, pressionamentos de teclas e etapas de navegação necessários para atingir objetivos específicos.
“A ação permite que o modelo explore ativamente o ambiente computacional, e tal exploração gera novos conhecimentos…levando a um modelo melhor”, explicou Qin em uma entrevista. Esse ciclo de auto-reforço permite melhoria contínua sem depender apenas de enormes conjuntos de dados estáticos. A empresa também afirma que o Lux opera com cerca de um décimo do custo dos modelos concorrentes.
Além do navegador: controlando aplicativos de desktop
Um diferencial importante do Lux é sua capacidade de controlar aplicativos em todo um sistema operacional de desktop, incluindo produtos Slack, Excel e Adobe, e não apenas em navegadores da web. A maioria dos agentes comerciais existentes está limitada a tarefas baseadas em navegador, excluindo uma vasta gama de fluxos de trabalho de produtividade. A OpenAGI fez parceria com a Intel para otimizar Lux para dispositivos de ponta, permitindo execução local em laptops e estações de trabalho sem depender de infraestrutura em nuvem.
O contexto mais amplo: a capacidade de controlar aplicativos de desktop expande significativamente o mercado endereçável para agentes que usam computadores, tornando-os mais valiosos para tarefas empresariais complexas.
Preocupações de segurança e a corrida para construir uma IA confiável
Os agentes que utilizam computadores introduzem novos desafios de segurança. Uma IA capaz de interagir com aplicativos pode causar danos se for mal direcionada – transferindo fundos, excluindo arquivos ou exfiltrando dados. A OpenAGI afirma ter integrado salvaguardas no Lux, recusando ações que violem suas políticas de segurança e alertando o usuário. No entanto, os investigadores de segurança já demonstraram vulnerabilidades em sistemas de agentes anteriores, destacando a necessidade de defesas robustas contra ataques adversários.
O fundador: um histórico de sucesso de código aberto
Zengyi Qin traz uma combinação única de rigor acadêmico e experiência empreendedora para OpenAGI. Ele possui doutorado pelo MIT e já construiu modelos de IA amplamente adotados, incluindo JetMoE (superando o LLaMA2-7B da Meta por uma fração do custo) e OpenVoice (um dos projetos de código aberto mais populares do GitHub). Sua plataforma anterior, MyShell, atraiu seis milhões de usuários que construíram coletivamente mais de 200.000 agentes de IA.
A corrida dos bilhões de dólares: implicações para a indústria
O mercado de agentes para uso de computadores atraiu investimentos intensos de gigantes da tecnologia como OpenAI, Anthropic, Google e Microsoft. No entanto, a adoção pelas empresas tem sido limitada por preocupações com confiabilidade e segurança. A afirmação da OpenAGI de desempenho superior a um custo mais baixo desafia os intervenientes estabelecidos, sugerindo que a inovação pode não exigir necessariamente os maiores orçamentos.
Em última análise, ainda não se sabe se o OpenAGI pode traduzir seu sucesso de benchmark em confiabilidade no mundo real. A indústria de IA tem um histórico de demonstrações promissoras que não conseguem ser entregues na produção. Mas se a Lux tiver o desempenho anunciado, poderá redefinir o caminho para agentes de IA capazes, provando que uma pequena equipe com a abordagem certa pode competir com os gigantes do setor.
