Ein neues Startup für künstliche Intelligenz, OpenAGI, ist mit mutigen Behauptungen aus dem Verborgenen aufgetaucht: Sein KI-Agent Lux übertrifft Operator von OpenAI und Claude von Anthropic in der Fähigkeit, Computer autonom zu steuern – und das zu deutlich geringeren Kosten. Das vom MIT-Forscher Zengyi Qin gegründete Unternehmen veröffentlicht Lux zusammen mit einem Entwickler-SDK mit dem Ziel, den sich schnell entwickelnden Markt für KI-Agenten zu revolutionieren, die in der Lage sind, durch Software zu navigieren, Aufgaben zu automatisieren und komplexe Arbeitsabläufe auszuführen.
Der Benchmark-Durchbruch: Etablierte Modelle übertreffen
OpenAGI behauptet, dass Lux beim Online-Mind2Web-Benchmark, dem derzeit anspruchsvollsten Test der Branche für KI-Agenten, die mit Computerschnittstellen interagieren, eine Erfolgsquote von 83,6 % erreicht. Diese Zahl übersteigt deutlich die von OpenAIs Operator (61,3 %) und Anthropics Claude Computer Use (56,3 %). Der von Forschern der Ohio State und Berkeley entwickelte Online-Mind2Web-Benchmark simuliert reale Szenarien auf 136 Websites und testet Agenten in dynamischen, unvorhersehbaren Online-Umgebungen.
Warum das wichtig ist: Unabhängige Untersuchungen haben zuvor die tatsächliche Leistung führender KI-Agenten in Frage gestellt und darauf hingewiesen, dass Marketingaussagen oft die tatsächlichen Fähigkeiten übertreffen. Um diese Lücke zu schließen, wurde der Online-Mind2Web-Benchmark entwickelt, der ein genaueres Maß für die tatsächliche Agentenkompetenz bietet.
Ein anderer Trainingsansatz: Vom Text zur Aktion
Der Vorteil von OpenAGI liegt laut Qin in seiner „Agentic Active Pre-Training“-Methodik. Im Gegensatz zu herkömmlichen Large-Language-Modellen (LLMs), die lernen, indem sie das nächste Wort in einer Sequenz vorhersagen, wird Lux anhand von Computer-Screenshots und Aktionssequenzen trainiert. Dieser Ansatz lehrt das Modell, visuelle Schnittstellen zu interpretieren und die notwendigen Klicks, Tastenanschläge und Navigationsschritte zu bestimmen, um bestimmte Ziele zu erreichen.
„Die Aktion ermöglicht es dem Modell, die Computerumgebung aktiv zu erkunden, und diese Erkundung generiert neues Wissen … was zu einem besseren Modell führt“, erklärte Qin in einem Interview. Dieser sich selbst verstärkende Kreislauf ermöglicht eine kontinuierliche Verbesserung, ohne sich ausschließlich auf riesige statische Datensätze zu verlassen. Das Unternehmen behauptet außerdem, dass Lux etwa ein Zehntel der Kosten der Konkurrenzmodelle kostet.
Jenseits des Browsers: Desktop-Anwendungen steuern
Ein wesentliches Unterscheidungsmerkmal von Lux ist die Fähigkeit, Anwendungen über ein gesamtes Desktop-Betriebssystem, einschließlich Slack-, Excel- und Adobe-Produkte, zu steuern – nicht nur innerhalb von Webbrowsern. Die meisten vorhandenen Handelsvertreter sind auf browserbasierte Aufgaben beschränkt und schließen eine Vielzahl von Produktivitätsworkflows aus. OpenAGI arbeitet mit Intel zusammen, um Lux für Edge-Geräte zu optimieren und die lokale Ausführung auf Laptops und Workstations zu ermöglichen, ohne auf eine Cloud-Infrastruktur angewiesen zu sein.
Der breitere Kontext: Die Möglichkeit, Desktop-Anwendungen zu steuern, erweitert den adressierbaren Markt für Computer-Agenten erheblich und macht sie für komplexe Unternehmensaufgaben wertvoller.
Sicherheitsbedenken und der Wettlauf um den Aufbau zuverlässiger KI
Computernutzungsagenten bringen neue Sicherheitsherausforderungen mit sich. Eine KI, die in der Lage ist, mit Anwendungen zu interagieren, könnte möglicherweise Schaden anrichten, wenn sie fehlgeleitet wird – Geldtransfers, das Löschen von Dateien oder das Herausfiltern von Daten. OpenAGI gibt an, Schutzmaßnahmen in Lux eingebaut zu haben, Aktionen abzulehnen, die gegen seine Sicherheitsrichtlinien verstoßen, und den Benutzer zu warnen. Allerdings haben Sicherheitsforscher bereits Schwachstellen in früheren Agentensystemen nachgewiesen, was die Notwendigkeit robuster Abwehrmaßnahmen gegen gegnerische Angriffe unterstreicht.
Der Gründer: Eine Erfolgsbilanz im Open-Source-Bereich
Zengyi Qin bringt eine einzigartige Kombination aus akademischer Genauigkeit und unternehmerischer Erfahrung zu OpenAGI ein. Er hat einen Doktortitel vom MIT und hat zuvor weit verbreitete KI-Modelle entwickelt, darunter JetMoE (das LLaMA2-7B von Meta zu einem Bruchteil der Kosten übertrifft) und OpenVoice (eines der beliebtesten Open-Source-Projekte von GitHub). Seine vorherige Plattform MyShell hat sechs Millionen Benutzer angezogen, die zusammen über 200.000 KI-Agenten erstellt haben.
Der Milliarden-Dollar-Wettlauf: Auswirkungen auf die Branche
Der Markt für Computer-Use-Agents hat intensive Investitionen von Technologiegiganten wie OpenAI, Anthropic, Google und Microsoft angezogen. Allerdings wurde die Akzeptanz in Unternehmen durch Bedenken hinsichtlich der Zuverlässigkeit und Sicherheit eingeschränkt. Der Anspruch von OpenAGI, überlegene Leistung zu geringeren Kosten zu bieten, stellt die etablierten Akteure in Frage, was darauf hindeutet, dass für Innovationen nicht unbedingt die größten Budgets erforderlich sind.
Letztendlich bleibt abzuwarten, ob OpenAGI seinen Benchmark-Erfolg in Zuverlässigkeit in der Praxis umsetzen kann. In der KI-Branche gibt es in der Vergangenheit vielversprechende Demos, die in der Produktion jedoch scheitern. Aber wenn Lux die angekündigte Leistung erbringt, könnte es den Weg zu fähigen KI-Agenten neu definieren und beweisen, dass ein kleines Team mit dem richtigen Ansatz mit den Branchenriesen konkurrieren kann.
