
OpenAI CEO Sam Altman startete dieses Jahr mit einem Blogbeitrag, in dem er sagte, dass 2025 groß für KI-Agenten werden würde, die Aufgaben automatisieren und in Ihrem Auftrag handeln können.
Jetzt sehen wir OpenAIs ersten echten Versuch.
OpenAI kündigte am Donnerstag die Einführung einer Forschungsvorschau von Operator an, einem KI-Agenten für allgemeine Zwecke, der die Kontrolle über einen Webbrowser übernehmen und bestimmte Aktionen eigenständig ausführen kann. Operator wird zuerst für U.S.-Nutzer auf ChatGPTs $200 Pro-Abonnementplan erhältlich sein. OpenAI plant, diese Funktion schließlich auch für mehr Nutzer in seinen Plus, Team- und Enterprise-Tarifen einzuführen.
„[Operator] wird bald in anderen Ländern verfügbar sein“, sagte OpenAI CEO Sam Altman während eines Livestreams am Donnerstag. „Europa wird leider etwas länger dauern.“
Diese erste Forschungsvorschau ist derzeit unter operator.chatgpt.com verfügbar, aber OpenAI plant, Operator in all seine ChatGPT-Clients zu integrieren.

Operator verspricht, Aufgaben wie die Buchung von Reiseunterkünften, die Reservierung von Restaurantplätzen und das Online-Shopping zu automatisieren, so OpenAI. Es gibt verschiedene Aufgabenkategorien, die Benutzer innerhalb der Operator-Schnittstelle auswählen können, darunter Einkaufen, Lieferung, Essen und Reisen - all dies ermöglicht verschiedene Arten von Automatisierung.
Wenn ChatGPT-Benutzer Operator aktivieren, wird ein kleines Fenster geöffnet, das einen dedizierten Webbrowser zeigt, den der Agent zur Durchführung von Aufgaben verwendet, sowie Erklärungen zu spezifischen Aktionen, die der Agent durchführt. Benutzer können den Bildschirm weiterhin kontrollieren, während Operator arbeitet, da Operator seinen eigenen dedizierten Browser verwendet.
OpenAI sagt, dass Operator von einem Computer-Using-Agent-Modell, oder CUA, angetrieben wird, das die Sehfähigkeiten des GPT-40-Modells des Unternehmens mit den Argumentationsfähigkeiten aus OpenAIs fortschrittlicheren Modellen kombiniert. Der CUA ist darauf trainiert, mit der Front-End von Websites zu interagieren, was bedeutet, dass er keine Entwickler-APIs verwenden muss, um auf verschiedene Dienste zuzugreifen.
Mit anderen Worten, der CUA kann Schaltflächen verwenden, Menüs navigieren und Formulare auf einer Webseite ausfüllen, ähnlich wie ein Mensch.
OpenAI sagt, dass es mit Unternehmen wie DoorDash, eBay, Instacart, Priceline, StubHub und Uber zusammenarbeitet, um sicherzustellen, dass Operator die Nutzungsbedingungen dieser Unternehmen respektiert.

„Das CUA-Modell ist darauf trainiert, vor der finalen Durchführung von Aufgaben mit externen Nebenwirkungen, beispielsweise vor dem Absenden einer Bestellung, dem Versenden einer E-Mail usw., um Benutzerbestätigung zu bitten, damit der Benutzer die Arbeit des Modells vor deren endgültiger Ausführung überprüfen kann“, schreibt OpenAI in den für TechCrunch bereitgestellten Materialien. „Es hat sich bereits in verschiedenen Fällen als nützlich erwiesen, und wir beabsichtigen, diese Zuverlässigkeit auf eine breitere Palette von Aufgaben auszudehnen.“
Aber OpenAI warnt davor, dass der CUA nicht perfekt ist. Das Unternehmen sagt, dass es noch nicht erwartet, dass der CUA in allen Szenarien zuverlässig funktioniert.
„Derzeit kann Operator viele komplexe oder spezialisierte Aufgaben nicht zuverlässig handhaben“, fügt OpenAI in einem Support-Dokument hinzu, „wie z.B. das Erstellen von detaillierten Präsentationen, das Verwalten von komplizierten Kalendersystemen oder die Interaktion mit hochgradig angepassten oder nicht standardmäßigen Webschnittstellen.“
Aus Vorsichtsgründen wird von OpenAI auch die Aufsicht über einige Aufgaben, wie Banktransaktionen, verlangt, die der CUA und Operator größtenteils eigenständig ausführen könnten. Benutzer müssen beispielsweise eingreifen, um Kreditkarteninformationen einzugeben. OpenAI sagt, dass Operator keine Daten sammelt oder Screenshots macht.
„Auf besonders sensiblen Websites, wie z.B. E-Mail, erfordert Operator eine aktive Benutzeraufsicht, um sicherzustellen, dass Benutzer mögliche Fehler des Modells direkt erkennen und korrigieren können“, erklärt OpenAI in seinen Support-Materialien.
Dies beschränkt sicherlich die Nützlichkeit von Operator, stellt aber auch sicher, dass der Agent nicht Halluzinationen hat und zum Beispiel die Hypothekenzahlung für Akzentstühle ausgibt. Google hat einen ähnlichen Ansatz mit seinem Projekt Mariner AI-Agenten gewählt, der auch keine Informationen wie Kreditkartennummern ausfüllt.
Einschränkungen
Operator hat einige Einschränkungen, die es wert sind, erwähnt zu werden.
Es gibt Ratenbegrenzungen - sowohl täglich als auch aufgabenabhängig. OpenAI sagt, dass Operator mehrere Aufgaben gleichzeitig ausführen kann, aber dass es „dynamische Grenzen“ dafür gibt. Es gibt auch eine Gesamtnutzungsgrenze, die täglich zurückgesetzt wird.
In diesem Veröffentlichungsstadium wird Operator auch aus Sicherheitsgründen bestimmte Aufgaben direkt ablehnen, wie z.B. das Senden von E-Mails (obwohl der CUA dazu in der Lage ist) und das Löschen von Kalendereinträgen. OpenAI sagt, dass sich dies in Zukunft ändern wird, gibt jedoch kein ETA an.
Operator könnte auch „stecken bleiben“, wenn es auf eine besonders komplexe Benutzeroberfläche, ein Passwortfeld oder eine CAPTCHA-Überprüfung stößt. OpenAI sagt, dass es den Nutzer auffordern wird, einzuspringen, wenn dies geschieht.
Eine agentische Zukunft
OpenAI war im Vergleich zu Konkurrenten (siehe: Agenten von Rabbit, Google und Anthropic) eher langsam bei der Entwicklung eines KI-Agenten, was möglicherweise mit den Sicherheitsrisiken rund um die Technologie zusammenhängt.
Wenn ein KI-System Aktionen im Web durchführen kann, eröffnet sich die Tür für weitaus gefährlichere Anwendungsfälle von böswilligen Akteuren. Sie könnten KI-Agenten automatisieren, um Phishing-Betrügereien oder DDoS-Angriffe zu orchestrieren oder Tickets für ein Konzert zu ergattern, bevor es jemand anders könnte. Insbesondere für ein so weit verbreitetes Tool wie ChatGPT ist es wichtig, dass OpenAI Maßnahmen ergreift, um derartige Ausnutzungen zu verhindern.
OpenAI scheint zu glauben, dass Operator in seiner aktuellen Form sicher genug ist, um zumindest als Forschungsvorschau veröffentlicht zu werden.
„Operator setzt Instrumente ein, die darauf abzielen, die Anfälligkeit des Modells für bösartige Aufforderungen, versteckte Anweisungen und Phishing-Versuche zu begrenzen“, erklärt OpenAI auf seiner Website. „Ein Überwachungssystem unterbricht die Ausführung, wenn verdächtige Aktivitäten festgestellt werden, während automatisierte und von Menschen überprüfte Pipelines kontinuierlich Sicherheitsvorkehrungen aktualisieren.“
Operator ist OpenAIs bisher kühnster Versuch, einen KI-Agenten zu schaffen. Letzte Woche veröffentlichte OpenAI Tasks, die ChatGPT einfache Automatisierungsfunktionen wie die Möglichkeit, Erinnerungen zu setzen und Aufforderungen zu einem festgelegten Zeitpunkt jeden Tag auszuführen, gab.
Tasks gab den ChatGPT-Benutzern einige vertraute, aber notwendige Funktionen, um ChatGPT so praktisch wie Siri oder Alexa zu machen. Operator zeigt jedoch Fähigkeiten auf, die die vorherige Generation virtueller Assistenten niemals tun konnte.
KI-Agenten wurden als das nächste große Ding in der KI nach ChatGPT beworben: eine neue Technologie, die verändern wird, wie Menschen das Internet und ihre PCs nutzen. Anstatt einfach Informationen zu liefern und zu verarbeiten, können Agenten - theoretisch - Handlungen ausführen und tatsächlich Dinge tun.
Mit der Veröffentlichung von OpenAIs erstem konkreten Ansatz für Agenten wird bald deutlich werden, wie realistisch diese Vision ist.