Een nieuwe kunstmatige intelligentie-startup, OpenAGI, is uit stealth tevoorschijn gekomen met gewaagde beweringen: zijn AI-agent, Lux, overtreft OpenAI’s Operator en Anthropic’s Claude in het vermogen om computers autonoom te besturen – en tegen aanzienlijk lagere kosten. Het bedrijf, opgericht door MIT-onderzoeker Zengyi Qin, brengt Lux uit samen met een ontwikkelaars-SDK, met als doel de snel evoluerende markt te ontwrichten voor AI-agenten die in staat zijn om door software te navigeren, taken te automatiseren en complexe workflows uit te voeren.
De doorbraak in de benchmark: beter presteren dan gevestigde modellen
OpenAGI beweert dat Lux een succespercentage van 83,6% behaalt op de Online-Mind2Web-benchmark, momenteel de meest veeleisende test in de sector voor AI-agents die communiceren met computerinterfaces. Dit cijfer ligt aanzienlijk hoger dan het operatorgebruik van OpenAI (61,3%) en het Claude-computergebruik van Anthropic (56,3%). De Online-Mind2Web-benchmark, ontwikkeld door onderzoekers van Ohio State en Berkeley, simuleert scenario’s uit de echte wereld op 136 websites en test agenten in dynamische, onvoorspelbare online-omgevingen.
Waarom dit ertoe doet: Onafhankelijk onderzoek heeft eerder vraagtekens gezet bij de daadwerkelijke prestaties van toonaangevende AI-agenten, wat suggereert dat marketingclaims vaak de mogelijkheden van de echte wereld overtreffen. De Online-Mind2Web-benchmark is gemaakt om deze kloof te dichten en een rigoureuzere maatstaf te bieden voor de echte competentie van agenten.
Een andere trainingsaanpak: van tekst naar actie
Het voordeel van OpenAGI ligt volgens Qin in de ‘Agentic Active Pre-training’-methodologie. In tegenstelling tot traditionele grote taalmodellen (LLM’s) die leren door het volgende woord in een reeks te voorspellen, is Lux getraind op computerschermafbeeldingen en actiereeksen. Deze aanpak leert het model visuele interfaces te interpreteren en de noodzakelijke klikken, toetsaanslagen en navigatiestappen te bepalen om specifieke doelen te bereiken.
“Door de actie kan het model actief de computeromgeving verkennen, en een dergelijke verkenning genereert nieuwe kennis…wat leidt tot een beter model”, legde Qin uit in een interview. Deze zichzelf versterkende lus maakt continue verbetering mogelijk zonder uitsluitend te vertrouwen op enorme statische datasets. Het bedrijf beweert ook dat Lux ongeveer een tiende van de kosten van concurrerende modellen opereert.
Voorbij de browser: desktopapplicaties besturen
Een belangrijke onderscheidende factor voor Lux is de mogelijkheid om applicaties over een volledig desktopbesturingssysteem te besturen, inclusief Slack-, Excel- en Adobe-producten – en niet alleen binnen webbrowsers. De meeste bestaande commerciële agenten zijn beperkt tot browsergebaseerde taken, met uitzondering van een groot aantal productiviteitsworkflows. OpenAGI werkt samen met Intel om Lux te optimaliseren voor edge-apparaten, waardoor lokale uitvoering op laptops en werkstations mogelijk wordt zonder afhankelijk te zijn van de cloudinfrastructuur.
De bredere context: De mogelijkheid om desktopapplicaties te besturen vergroot de bereikbare markt voor computergebruikers aanzienlijk, waardoor ze waardevoller worden voor complexe bedrijfstaken.
Veiligheidsproblemen en de race om betrouwbare AI te bouwen
Computergebruiksagenten introduceren nieuwe veiligheidsuitdagingen. Een AI die in staat is om met applicaties te communiceren, kan mogelijk schade veroorzaken als deze op de verkeerde manier wordt gebruikt – door geld over te maken, bestanden te verwijderen of gegevens te exfiltreren. OpenAGI beweert veiligheidsmaatregelen in Lux te hebben ingebouwd, acties te weigeren die in strijd zijn met het veiligheidsbeleid en de gebruiker te waarschuwen. Beveiligingsonderzoekers hebben echter al kwetsbaarheden in eerdere agentsystemen aangetoond, wat de noodzaak van robuuste verdediging tegen vijandige aanvallen benadrukt.
De oprichter: een trackrecord van open source-succes
Zengyi Qin brengt een unieke combinatie van academische nauwkeurigheid en ondernemerservaring naar OpenAGI. Hij heeft een doctoraat van MIT en heeft eerder algemeen aanvaarde AI-modellen gebouwd, waaronder JetMoE (dat beter presteert dan Meta’s LLaMA2-7B tegen een fractie van de kosten) en OpenVoice (een van de populairste open-sourceprojecten van GitHub). Zijn vorige platform, MyShell, heeft zes miljoen gebruikers aangetrokken die gezamenlijk meer dan 200.000 AI-agents hebben gebouwd.
De miljardenrace: implicaties voor de industrie
De markt voor computergebruiksagenten heeft intensieve investeringen aangetrokken van technologiegiganten als OpenAI, Anthropic, Google en Microsoft. De acceptatie door bedrijven wordt echter beperkt door zorgen over betrouwbaarheid en beveiliging. OpenAGI’s claim van superieure prestaties tegen lagere kosten daagt de gevestigde spelers uit, wat suggereert dat innovatie niet noodzakelijkerwijs de grootste budgetten vereist.
Uiteindelijk valt nog te bezien of OpenAGI zijn benchmarksucces kan vertalen naar betrouwbaarheid in de echte wereld. De AI-industrie heeft een geschiedenis van veelbelovende demo’s die in de productie geen resultaten opleveren. Maar als Lux presteert zoals geadverteerd, zou het de weg naar capabele AI-agenten kunnen herdefiniëren, wat zou bewijzen dat een klein team met de juiste aanpak kan concurreren met de industriële reuzen.























