Додому Без рубрики OpenAGI afirma desempenho superior de agente de IA, desafiando líderes do setor

OpenAGI afirma desempenho superior de agente de IA, desafiando líderes do setor

Uma nova startup de inteligência artificial, OpenAGI, emergiu furtivamente com afirmações ousadas: seu agente de IA, Lux, supera o Operador da OpenAI e Claude da Anthropic na capacidade de controlar computadores de forma autônoma – e a um custo significativamente menor. A empresa, fundada pelo pesquisador do MIT Zengyi Qin, está lançando Lux junto com um SDK de desenvolvedor, com o objetivo de revolucionar o mercado em rápida evolução de agentes de IA capazes de navegar em software, automatizar tarefas e executar fluxos de trabalho complexos.

O avanço do benchmark: superando modelos estabelecidos

A OpenAGI afirma que Lux atinge uma taxa de sucesso de 83,6% no benchmark Online-Mind2Web, atualmente o teste mais exigente do setor para agentes de IA que interagem com interfaces de computador. Este número excede significativamente o Operador da OpenAI (61,3%) e o Claude Computer Use da Anthropic (56,3%). O benchmark Online-Mind2Web, desenvolvido por pesquisadores da Ohio State e Berkeley, simula cenários do mundo real em 136 sites, testando agentes em ambientes online dinâmicos e imprevisíveis.

Por que isso é importante: Pesquisas independentes questionaram anteriormente o desempenho real dos principais agentes de IA, sugerindo que as afirmações de marketing muitas vezes superam as capacidades do mundo real. O benchmark Online-Mind2Web foi criado para suprir essa lacuna, fornecendo uma medida mais rigorosa da verdadeira competência do agente.

Uma abordagem de treinamento diferente: do texto à ação

A vantagem do OpenAGI, segundo Qin, está em sua metodologia “Agentic Active Pre-training”. Ao contrário dos modelos tradicionais de linguagem grande (LLMs) que aprendem prevendo a próxima palavra em uma sequência, Lux é treinado em capturas de tela de computador e sequências de ação. Essa abordagem ensina o modelo a interpretar interfaces visuais e determinar os cliques, pressionamentos de teclas e etapas de navegação necessários para atingir objetivos específicos.

“A ação permite que o modelo explore ativamente o ambiente computacional, e tal exploração gera novos conhecimentos…levando a um modelo melhor”, explicou Qin em uma entrevista. Esse ciclo de auto-reforço permite melhoria contínua sem depender apenas de enormes conjuntos de dados estáticos. A empresa também afirma que o Lux opera com cerca de um décimo do custo dos modelos concorrentes.

Além do navegador: controlando aplicativos de desktop

Um diferencial importante do Lux é sua capacidade de controlar aplicativos em todo um sistema operacional de desktop, incluindo produtos Slack, Excel e Adobe, e não apenas em navegadores da web. A maioria dos agentes comerciais existentes está limitada a tarefas baseadas em navegador, excluindo uma vasta gama de fluxos de trabalho de produtividade. A OpenAGI fez parceria com a Intel para otimizar Lux para dispositivos de ponta, permitindo execução local em laptops e estações de trabalho sem depender de infraestrutura em nuvem.

O contexto mais amplo: a capacidade de controlar aplicativos de desktop expande significativamente o mercado endereçável para agentes que usam computadores, tornando-os mais valiosos para tarefas empresariais complexas.

Preocupações de segurança e a corrida para construir uma IA confiável

Os agentes que utilizam computadores introduzem novos desafios de segurança. Uma IA capaz de interagir com aplicativos pode causar danos se for mal direcionada – transferindo fundos, excluindo arquivos ou exfiltrando dados. A OpenAGI afirma ter integrado salvaguardas no Lux, recusando ações que violem suas políticas de segurança e alertando o usuário. No entanto, os investigadores de segurança já demonstraram vulnerabilidades em sistemas de agentes anteriores, destacando a necessidade de defesas robustas contra ataques adversários.

O fundador: um histórico de sucesso de código aberto

Zengyi Qin traz uma combinação única de rigor acadêmico e experiência empreendedora para OpenAGI. Ele possui doutorado pelo MIT e já construiu modelos de IA amplamente adotados, incluindo JetMoE (superando o LLaMA2-7B da Meta por uma fração do custo) e OpenVoice (um dos projetos de código aberto mais populares do GitHub). Sua plataforma anterior, MyShell, atraiu seis milhões de usuários que construíram coletivamente mais de 200.000 agentes de IA.

A corrida dos bilhões de dólares: implicações para a indústria

O mercado de agentes para uso de computadores atraiu investimentos intensos de gigantes da tecnologia como OpenAI, Anthropic, Google e Microsoft. No entanto, a adoção pelas empresas tem sido limitada por preocupações com confiabilidade e segurança. A afirmação da OpenAGI de desempenho superior a um custo mais baixo desafia os intervenientes estabelecidos, sugerindo que a inovação pode não exigir necessariamente os maiores orçamentos.

Em última análise, ainda não se sabe se o OpenAGI pode traduzir seu sucesso de benchmark em confiabilidade no mundo real. A indústria de IA tem um histórico de demonstrações promissoras que não conseguem ser entregues na produção. Mas se a Lux tiver o desempenho anunciado, poderá redefinir o caminho para agentes de IA capazes, provando que uma pequena equipe com a abordagem certa pode competir com os gigantes do setor.

Exit mobile version