Una nuova startup di intelligenza artificiale, OpenAGI, è emersa di nascosto con affermazioni audaci: il suo agente AI, Lux, supera Operator di OpenAI e Claude di Anthropic nella capacità di controllare autonomamente i computer – e a un costo notevolmente inferiore. L’azienda, fondata dal ricercatore del MIT Zengyi Qin, sta rilasciando Lux insieme a un SDK per sviluppatori, con l’obiettivo di rivoluzionare il mercato in rapida evoluzione degli agenti IA in grado di navigare tra software, automatizzare attività ed eseguire flussi di lavoro complessi.
La svolta nel benchmark: superare i modelli consolidati
OpenAGI afferma che Lux raggiunge un tasso di successo dell’83,6% sul benchmark Online-Mind2Web, attualmente il test più impegnativo del settore per gli agenti IA che interagiscono con le interfacce dei computer. Questa cifra supera significativamente quella di Operatore di OpenAI (61,3%) e quella di Claude Computer Use di Anthropic (56,3%). Il benchmark Online-Mind2Web, sviluppato dai ricercatori dell’Ohio State e di Berkeley, simula scenari del mondo reale su 136 siti Web, testando agenti in ambienti online dinamici e imprevedibili.
Perché è importante: Ricerche indipendenti hanno già messo in dubbio le prestazioni effettive dei principali agenti di intelligenza artificiale, suggerendo che le affermazioni di marketing spesso superano le capacità del mondo reale. Il benchmark Online-Mind2Web è stato creato per colmare questa lacuna, fornendo una misura più rigorosa della vera competenza dell’agente.
Un approccio formativo diverso: dal testo all’azione
Il vantaggio di OpenAGI, secondo Qin, risiede nella sua metodologia “Agentic Active Pre-training”. A differenza dei tradizionali modelli linguistici di grandi dimensioni (LLM) che apprendono prevedendo la parola successiva in una sequenza, Lux viene addestrato su schermate del computer e sequenze di azioni. Questo approccio insegna al modello a interpretare le interfacce visive e a determinare i clic, le sequenze di tasti e i passaggi di navigazione necessari per raggiungere obiettivi specifici.
“L’azione consente al modello di esplorare attivamente l’ambiente informatico e tale esplorazione genera nuova conoscenza… portando a un modello migliore”, ha spiegato Qin in un’intervista. Questo ciclo auto-rinforzante consente il miglioramento continuo senza fare affidamento esclusivamente su enormi set di dati statici. L’azienda sostiene inoltre che Lux opera a circa un decimo del costo dei modelli concorrenti.
Oltre il browser: controllo delle applicazioni desktop
Un elemento chiave di differenziazione per Lux è la sua capacità di controllare le applicazioni su un intero sistema operativo desktop, inclusi i prodotti Slack, Excel e Adobe, non solo all’interno dei browser web. La maggior parte degli agenti commerciali esistenti si limita ad attività basate su browser, escludendo una vasta gamma di flussi di lavoro di produttività. OpenAGI collabora con Intel per ottimizzare Lux per i dispositivi edge, consentendo l’esecuzione locale su laptop e workstation senza fare affidamento sull’infrastruttura cloud.
Il contesto più ampio: la capacità di controllare le applicazioni desktop espande in modo significativo il mercato indirizzabile degli agenti che utilizzano i computer, rendendoli più preziosi per attività aziendali complesse.
Preoccupazioni per la sicurezza e corsa alla creazione di un’intelligenza artificiale affidabile
Gli agenti che utilizzano il computer introducono nuove sfide per la sicurezza. Un’intelligenza artificiale in grado di interagire con le applicazioni potrebbe potenzialmente causare danni se indirizzata erroneamente, trasferendo fondi, eliminando file o esfiltrando dati. OpenAGI afferma di aver integrato delle misure di sicurezza in Lux, rifiutando azioni che violano le sue politiche di sicurezza e avvisando l’utente. Tuttavia, i ricercatori nel campo della sicurezza hanno già dimostrato le vulnerabilità nei precedenti sistemi di agenti, evidenziando la necessità di difese robuste contro gli attacchi avversari.
Il Fondatore: un track record di successi open source
Zengyi Qin apporta a OpenAGI una combinazione unica di rigore accademico ed esperienza imprenditoriale. Ha conseguito un dottorato al MIT e in precedenza ha creato modelli di intelligenza artificiale ampiamente adottati, tra cui JetMoE (superando LLaMA2-7B di Meta a una frazione del costo) e OpenVoice (uno dei progetti open source più popolari di GitHub). La sua piattaforma precedente, MyShell, ha attirato sei milioni di utenti che hanno creato complessivamente oltre 200.000 agenti IA.
La corsa ai miliardi di dollari: implicazioni per l’industria
Il mercato degli agenti per l’uso del computer ha attratto intensi investimenti da giganti della tecnologia come OpenAI, Anthropic, Google e Microsoft. Tuttavia, l’adozione da parte delle imprese è stata limitata dalle preoccupazioni relative all’affidabilità e alla sicurezza. L’affermazione di OpenAGI di prestazioni superiori a costi inferiori sfida gli attori consolidati, suggerendo che l’innovazione potrebbe non richiedere necessariamente i budget più grandi.
In definitiva, resta da vedere se OpenAGI sarà in grado di tradurre il suo successo di riferimento in affidabilità nel mondo reale. Il settore dell’intelligenza artificiale ha una storia di demo promettenti che non riescono a raggiungere i risultati di produzione. Ma se Lux si comporta come pubblicizzato, potrebbe ridefinire il percorso verso agenti di intelligenza artificiale capaci, dimostrando che un piccolo team con il giusto approccio può competere con i giganti del settore.























