Sebuah startup kecerdasan buatan baru, OpenAGI, telah muncul secara sembunyi-sembunyi dengan klaim yang berani: agen AI-nya, Lux, melampaui Operator OpenAI dan Claude dari Anthropic dalam kemampuan mengendalikan komputer secara mandiri – dan dengan biaya yang jauh lebih rendah. Perusahaan yang didirikan oleh peneliti MIT Zengyi Qin ini merilis Lux bersama dengan SDK pengembang, yang bertujuan untuk mengganggu pasar agen AI yang berkembang pesat yang mampu menavigasi perangkat lunak, mengotomatiskan tugas, dan menjalankan alur kerja yang kompleks.
Terobosan Tolok Ukur: Mengungguli Model Lama
OpenAGI menegaskan bahwa Lux mencapai tingkat keberhasilan 83,6% pada benchmark Online-Mind2Web, yang saat ini merupakan pengujian paling menuntut di industri untuk agen AI yang berinteraksi dengan antarmuka komputer. Angka ini jauh melebihi Penggunaan Komputer milik OpenAI (61,3%) dan Penggunaan Komputer Claude Anthropic (56,3%). Tolok ukur Online-Mind2Web, yang dikembangkan oleh para peneliti di Ohio State dan Berkeley, mensimulasikan skenario dunia nyata di 136 situs web, menguji agen dalam lingkungan online yang dinamis dan tidak dapat diprediksi.
Mengapa hal ini penting: Penelitian independen sebelumnya mempertanyakan kinerja sebenarnya dari agen AI terkemuka, yang menunjukkan bahwa klaim pemasaran sering kali melampaui kemampuan dunia nyata. Tolok ukur Online-Mind2Web diciptakan untuk mengatasi kesenjangan ini, memberikan ukuran yang lebih ketat mengenai kompetensi agen yang sebenarnya.
Pendekatan Pelatihan yang Berbeda: Dari Teks ke Tindakan
Keunggulan OpenAGI, menurut Qin, terletak pada metodologi “Agentic Active Pre-training”. Tidak seperti model bahasa besar (LLM) tradisional yang belajar dengan memprediksi kata berikutnya secara berurutan, Lux dilatih menggunakan tangkapan layar komputer dan rangkaian tindakan. Pendekatan ini mengajarkan model untuk menafsirkan antarmuka visual dan menentukan klik, penekanan tombol, dan langkah navigasi yang diperlukan untuk mencapai tujuan tertentu.
“Tindakan ini memungkinkan model untuk secara aktif mengeksplorasi lingkungan komputer, dan eksplorasi tersebut menghasilkan pengetahuan baru…mengarah ke model yang lebih baik,” jelas Qin dalam sebuah wawancara. Lingkaran yang memperkuat diri ini memungkinkan peningkatan berkelanjutan tanpa hanya bergantung pada kumpulan data statis yang besar. Perusahaan juga mengklaim Lux beroperasi dengan biaya sekitar sepersepuluh dari biaya model pesaing.
Melampaui Browser: Mengontrol Aplikasi Desktop
Pembeda utama Lux adalah kemampuannya untuk mengontrol aplikasi di seluruh sistem operasi desktop, termasuk produk Slack, Excel, dan Adobe – tidak hanya di dalam browser web. Sebagian besar agen komersial yang ada terbatas pada tugas berbasis browser, tidak termasuk berbagai alur kerja produktivitas. OpenAGI bermitra dengan Intel untuk mengoptimalkan Lux untuk perangkat edge, memungkinkan eksekusi lokal pada laptop dan workstation tanpa bergantung pada infrastruktur cloud.
Konteks yang lebih luas: Kemampuan untuk mengontrol aplikasi desktop memperluas pasar yang dapat ditangani bagi agen penggunaan komputer secara signifikan, menjadikannya lebih berharga untuk tugas-tugas perusahaan yang kompleks.
Masalah Keamanan dan Perlombaan untuk Membangun AI yang Andal
Agen yang menggunakan komputer menimbulkan tantangan keselamatan baru. AI yang mampu berinteraksi dengan aplikasi berpotensi menimbulkan bahaya jika salah arah – mentransfer dana, menghapus file, atau mengeksfiltrasi data. OpenAGI mengklaim telah membangun perlindungan di Lux, menolak tindakan yang melanggar kebijakan keselamatannya dan memperingatkan pengguna. Namun, para peneliti keamanan telah menunjukkan kerentanan pada sistem agen sebelumnya, sehingga menyoroti perlunya pertahanan yang kuat terhadap serangan musuh.
Sang Pendiri: Rekam Jejak Kesuksesan Sumber Terbuka
Zengyi Qin menghadirkan kombinasi unik antara ketelitian akademis dan pengalaman kewirausahaan ke OpenAGI. Ia meraih gelar doktor dari MIT dan sebelumnya telah membangun model AI yang diadopsi secara luas, termasuk JetMoE (mengungguli LLaMA2-7B Meta dengan biaya yang lebih murah) dan OpenVoice (salah satu proyek sumber terbuka paling populer di GitHub). Platform sebelumnya, MyShell, telah menarik enam juta pengguna yang secara kolektif telah membangun lebih dari 200.000 agen AI.
Perlombaan Miliaran Dolar: Implikasinya bagi Industri
Pasar agen penggunaan komputer telah menarik investasi besar-besaran dari raksasa teknologi seperti OpenAI, Anthropic, Google, dan Microsoft. Namun, penerapannya di perusahaan dibatasi oleh kekhawatiran mengenai keandalan dan keamanan. Klaim OpenAGI mengenai kinerja superior dengan biaya lebih rendah menantang para pemain mapan, yang menunjukkan bahwa inovasi belum tentu memerlukan anggaran terbesar.
Pada akhirnya, apakah OpenAGI dapat menerjemahkan kesuksesan benchmarknya ke dalam keandalan di dunia nyata masih harus dilihat. Industri AI memiliki sejarah demo yang menjanjikan namun gagal dalam produksi. Namun jika Lux berkinerja seperti yang diiklankan, hal ini dapat mengubah jalur menuju agen AI yang mumpuni, membuktikan bahwa tim kecil dengan pendekatan yang tepat dapat bersaing dengan raksasa industri.
























