Новый стартап в области искусственного интеллекта, OpenAGI, вышел из тени с дерзкими заявлениями: его ИИ-агент Lux превосходит OpenAI Operator и Anthropic Claude в способности автономно управлять компьютерами — и при этом значительно дешевле. Компания, основанная исследователем MIT Цзэнъи Цинь, выпускает Lux вместе с SDK для разработчиков, стремясь разрушить быстро развивающийся рынок ИИ-агентов, способных ориентироваться в программном обеспечении, автоматизировать задачи и выполнять сложные рабочие процессы.
Прорыв в Бенчмарке: Превосходя Установленные Модели
OpenAGI утверждает, что Lux достигает 83,6% успеха в бенчмарке Online-Mind2Web, в настоящее время самом сложном тесте в отрасли для ИИ-агентов, взаимодействующих с компьютерными интерфейсами. Эта цифра значительно превышает показатели OpenAI Operator (61,3%) и Anthropic Claude Computer Use (56,3%). Бенчмарк Online-Mind2Web, разработанный исследователями из штата Огайо и Беркли, моделирует реальные сценарии на 136 веб-сайтах, тестируя агентов в динамичных и непредсказуемых онлайн-средах.
Почему это важно: Независимые исследования ранее ставили под сомнение реальную производительность ведущих ИИ-агентов, предполагая, что маркетинговые заявления часто превосходят реальные возможности. Бенчмарк Online-Mind2Web был создан для устранения этого пробела, предоставляя более строгий показатель истинной компетентности агента.
Отличный от Традиционного Подход к Обучению: От Текста к Действию
Преимущество OpenAGI, по словам Циня, заключается в методологии “Agentic Active Pre-training”. В отличие от традиционных больших языковых моделей (LLM), которые обучаются, предсказывая следующее слово в последовательности, Lux обучен на скриншотах компьютеров и последовательностях действий. Этот подход учит модель интерпретировать визуальные интерфейсы и определять необходимые щелчки, нажатия клавиш и шаги навигации для достижения конкретных целей.
«Действие позволяет модели активно исследовать компьютерную среду, и такое исследование генерирует новые знания… что приводит к улучшению модели», — объяснил Цинь в интервью. Этот самоусиливающийся цикл обеспечивает непрерывное улучшение, не полагаясь исключительно на огромные статические наборы данных. Компания также утверждает, что Lux работает примерно в десять раз дешевле, чем конкурирующие модели.
За Пределами Браузера: Управление Настольными Приложениями
Ключевым отличием Lux является его способность управлять приложениями во всей настольной операционной системе, включая Slack, Excel и продукты Adobe — а не только внутри веб-браузеров. Большинство существующих коммерческих агентов ограничены задачами на основе браузера, исключая широкий спектр рабочих процессов повышения производительности. OpenAGI сотрудничает с Intel для оптимизации Lux для периферийных устройств, обеспечивая локальное выполнение на ноутбуках и рабочих станциях без использования облачной инфраструктуры.
Более широкий контекст: Способность управлять настольными приложениями значительно расширяет адресуемый рынок для агентов, использующих компьютеры, делая их более ценными для сложных корпоративных задач.
Проблемы Безопасности и Гонка за Создание Надежного ИИ
ИИ-агенты, использующие компьютеры, создают новые проблемы безопасности. ИИ, способный взаимодействовать с приложениями, потенциально может причинить вред, если его неправильно направить — перевести средства, удалить файлы или вынести данные. OpenAGI утверждает, что встроил в Lux меры безопасности, отказываясь от действий, нарушающих его политики безопасности, и предупреждая пользователя. Однако исследователи в области безопасности уже продемонстрировали уязвимости в более ранних агентских системах, подчеркивая необходимость надежной защиты от враждебных атак.
Основатель: Опыт Успеха в Открытом Коде
Цзэнъи Цинь привносит в OpenAGI уникальное сочетание академической строгости и предпринимательского опыта. Он имеет докторскую степень от MIT и ранее создал широко используемые модели ИИ, в том числе JetMoE (превосходящую LLaMA2-7B от Meta при значительно меньших затратах) и OpenVoice (один из самых популярных проектов с открытым исходным кодом на GitHub). Его предыдущая платформа MyShell привлекла шесть миллионов пользователей, которые коллективно создали более 200 000 ИИ-агентов.
Гонка на Миллиард Долларов: Последствия для Отрасли
Рынок агентов, использующих компьютеры, привлек интенсивные инвестиции от технологических гигантов, таких как OpenAI, Anthropic, Google и Microsoft. Однако корпоративное внедрение было ограничено опасениями по поводу надежности и безопасности. Заявление OpenAGI о превосходной производительности по более низкой цене бросает вызов устоявшимся игрокам, предполагая, что инновации не обязательно требуют самых больших бюджетов.
В конечном счете, сможет ли OpenAGI перевести свой успех в бенчмарке в реальную надежность, еще предстоит увидеть. В индустрии ИИ есть история многообещающих демонстраций, которые терпят неудачу в производстве. Но если Lux работает так, как заявлено, он может переопределить путь к способным ИИ-агентам, доказав, что небольшая команда с правильным подходом может конкурировать с гигантами отрасли.























