Rabbits webbasiertes 'großes Aktionsmodell' kommt am 1. Oktober auf r1 an

The Rabbit r1 war das Must-Have-Gerät des frühen Jahres 2024, aber der Glanz verblasste recht schnell, als die umfangreichen Versprechen des Unternehmens nicht eingehalten wurden. CEO Jesse Lyu gibt zu, dass 'wir am ersten Tag unsere Erwartungen zu hoch gesetzt haben', sagte aber auch, dass ein Update, das nächste Woche auf den Geräten verfügbar sein wird, endlich das hochgelobte Large Action Model im Web freischalten wird.

Während Skeptiker (zu Recht) dies als zu wenig, zu spät oder als erneutes Verschieben von Zielen sehen können, hat die Ambition von Rabbit, einen plattformunabhängigen Agenten für Web- und Mobil-Apps zu entwickeln, noch grundlegenden - wenn auch weitgehend theoretischen - Wert.

Speaking to TechCrunch sagte Lyu, dass die letzten sechs Monate voller Versand, Fehlerbehebung, Verbesserung der Reaktionszeiten und Hinzufügung kleiner Funktionen waren. Aber trotz 16 Over-the-Air-Updates zum r1 bleibt es grundsätzlich auf die Interaktion mit einem LLM oder den Zugriff auf einen der sieben spezifischen Dienste wie Uber und Spotify beschränkt.

'Das war die allererste Version des LAM, trainiert mit Aufnahmen, die von Datenerfassern gesammelt wurden, aber es ist nicht generisch - es verbindet sich nur mit diesen Diensten', sagte er. Ob es sich um das handelt, was sie das LAM nennen, ist zu diesem Zeitpunkt ziemlich akademisch; was auch immer das Modell war, es bot nicht die Fähigkeiten, die Rabbit bei seinem Debüt detailliert beschrieben hat.

Bildnachweis: Rabbit

Ein Generalist Agent für das Web

Aber Rabbit steht bereit, die erste generische Version, die nicht spezifisch für eine App oder Schnittstelle ist, des LAM zu veröffentlichen, das Lyu mir demonstrierte.

Diese Version ist ein webbasierter Agent, der die Schritte zum Ausführen jeder gewöhnlichen Aufgabe, wie z.B. den Kauf von Tickets für ein Konzert, die Registrierung einer Website oder sogar das Spielen eines Online-Spiels, herausfindet. 'Unser Ziel ist sehr klar: Ende September wird Ihr r1 plötzlich viel mehr Dinge tun. Es sollte alles unterstützen, was Sie auf einer beliebigen Website tun können', sagte Lyu. (Das Unternehmen gab später ein endgültiges Datum vom 1. Oktober für das Update bekannt.)

Bekommt es eine Aufgabe, bricht es diese erst in Schritte herunter und beginnt dann mit der Analyse dessen, was es auf dem Bildschirm sieht: Schaltflächen, Felder, Bilder, unabhängig von Position oder Erscheinungsbild. Dann interagiert es mit dem entsprechenden Element basierend auf dem, was es allgemein darüber gelernt hat, wie Websites funktionieren.

Ich bat es (durch Lyu, der es remote bediente), sich für ein Filmfestival auf einer neuen Website zu registrieren. Nachdem es alle paar Sekunden eine Aktion ausgeführt hatte, suchte es nach Domain-Registern bei Google, wählte eines aus (ein gesponsertes, denke ich), gab 'Filmfestival' in das Domain-Feld ein und wählte aus der resultierenden Liste die Option 'filmfestival2023.com' für 14 $. Technisch gesehen hatte ich ihm keine Einschränkungen wie 'für 2025' oder 'Horrorfestival' oder ähnliches gegeben.

Ebenso, als Lyu es bat, nach einem r1 zu suchen und ihn zu kaufen, fand es schnell den Weg zu eBay, wo Dutzende zum Verkauf standen. Vielleicht ein gutes Ergebnis für einen Benutzer, aber nicht für den Gründer des Unternehmens, der vor der Presse präsentiert! Er lachte darüber und startete die Aufforderung erneut mit der Ergänzung, dass es nur von der offiziellen Website kaufen sollte. Der Agent hatte Erfolg.

Als nächstes sollte er das tägliche Wortspiel von Dictionary.com spielen. Es erforderte ein wenig Einsatzsteuerung (das Modell fand einen Ausweg, indem es das Spiel schnell beendete), aber es tat es.

Welchen Browser verwendet es? Einen frischen, sauberen in der Cloud, sagte Lyu, aber sie arbeiten an lokalen Versionen wie einer Chrome-Erweiterung, die es ermöglichen würden, bestehende Sitzungen zu verwenden und sich nicht bei Ihren Diensten anmelden zu müssen.

In dieser Hinsicht, da Benutzer verständlicherweise (und zu Recht) zögerlich sind, einem Unternehmen vollständigen Zugriff auf ihre Anmeldeinformationen zu geben, ist der Agent nicht damit ausgestattet. Lyu schlug vor, dass in der Zukunft ein abgeschirmtes kleines Sprachmodell mit Ihren Anmeldeinformationen privat aufgerufen werden könnte, um Anmeldungen durchzuführen. Es scheint eine offene Frage zu sein, wie dies funktionieren wird, was angesichts der Neuheit des Bereichs in gewisser Weise zu erwarten ist.

Ein Beispiel für die UI-Analyse innerhalb von Apps von der Rabbit-Website.
Bildnachweis: Rabbit

Lernen ist noch immer im Gange

Die Demo zeigte mir ein paar Dinge. Erstens, wenn man dem Unternehmen und seinen Entwicklern den Vorteil des Zweifels gibt, dass dies nicht alles ein aufwändiger Schwindel ist (wie einige glauben), scheint es sich um einen funktionierenden, allgemeinen Web-Agenten zu handeln. Und das wäre, wenn auch nicht an sich ein Novum, sicherlich der erste, der für Verbraucher leicht zugänglich ist.

„Es gibt Unternehmen, die Schwerpunkte setzen, für Excel oder Rechtsdokumente, aber ich glaube, dies ist einer der ersten generalistischen Agenten für Verbraucher“, sagte Lyu. „Die Idee ist, dass Sie alles sagen können, was über eine Website erreicht werden kann. Wir werden zuerst den generischen Agenten für Websites haben, dann für Apps.“

Zweitens zeigte es, dass die Einsatzsteuerung immer noch dringend erforderlich ist. Wie Sie eine Anfrage formulieren, kann leicht den Unterschied zwischen Erfolg und Misserfolg ausmachen, und das ist wahrscheinlich nichts, was gewöhnliche Verbraucher tolerieren würden.

Lyu warnte davor, dass dies eine 'Spielplatzversion' sei, noch lange nicht finalisiert, und obwohl es sich um einen voll funktionsfähigen allgemeinen Web-Agenten handele, könne er in vielerlei Hinsicht verbessert werden. Zum Beispiel sagte er: „Das Modell ist schlau genug, um die Planung durchzuführen, aber nicht schlau genug, um Schritte zu überspringen.“ Es würde nicht 'lernen', dass ein Benutzer seine Elektronik nicht bei eBay kaufen möchte oder dass es nach dem Suchen hinunterscrollen sollte, um die Wand gesponserter Ergebnisse zu umgehen.

Benutzerdaten werden noch nicht verwendet, um das Modell zu verbessern. Lyu führte dies darauf zurück, dass es im Grunde genommen keine Bewertungsmethode für ein System wie dieses gibt, sodass es schwierig ist zu quantifizieren, ob Verbesserungen vorgenommen wurden. Ein „Lernmodus“ wird allerdings ebenfalls eingeführt, damit Sie ihm zeigen können, wie eine bestimmte Art von Aufgabe erledigt wird.

Interessanterweise arbeitet das Unternehmen auch an einem Desktop-Agenten, der mit Apps wie Textverarbeitungsprogrammen, Musikplayern und natürlich Browsern interagieren kann. Dies ist noch in den Anfangsstadien, aber es funktioniert. „Sie müssen nicht einmal ein Ziel eingeben, es versucht einfach den Computer zu nutzen. Solange es eine Schnittstelle gibt, kann es sie steuern.“

Drittens gibt es immer noch keine 'Killer-App', oder zumindest keine offensichtliche. Der Agent ist beeindruckend, aber persönlich hätte ich leider wenig Verwendung dafür, da ich ohnehin acht Stunden am Tag vor einem Browser sitze. Es gibt sicherlich einige großartige Anwendungen, aber mir fiel keine ein, die die Nützlichkeit eines browserbasierten Automaten so offensichtlich macht wie die eines Roboterstaubsaugers.

Warum nicht wieder eine App?

Ich brachte den häufigen Einwand gegen das gesamte Rabbit-Geschäftsmodell vor, im Grunde genommen, dass 'das könnte eine App sein'.

Lyu hat diese Kritik offensichtlich schon oft gehört, und er war zuversichtlich in seiner Antwort.

„Wenn man die Mathematik macht, ergibt es keinen Sinn“, sagte er. „Ja, es ist technisch möglich, aber man wird Apple und Google von Anfang an verärgern. Sie werden nie zulassen, dass dies besser ist als Siri oder Gemini. Genau wie es keine Möglichkeit gibt, dass Apple Intelligence das Google-Zeug besser kontrollieren wird, oder umgekehrt. Und sie nehmen 30 % des Umsatzes ein! Wenn wir von Anfang an einfach eine App gebaut hätten, hätten wir nie diesen Schwung gehabt.“

Der Rabbit r1 in Gebrauch. Handmodell: Chris Velazco von The Washington Post.
Bildnachweis: Devin Coldewey / TechCrunch

Das grundlegende Konzept, das Rabbit vermittelt, ist, dass es eine KI oder ein Gerät eines Drittanbieters geben kann, das auf alle Ihre anderen Dienste zugreifen und diese bedienen kann, und das von außen, wie Sie selbst. „Ein plattformübergreifendes, generisches Agentensystem“, wie Lyu es nannte. „Wir werden jede Benutzeroberfläche kontrollieren, und die Website ist ein guter Anfang. Dann gehen wir zu Windows, zu MacOS, zu Telefonen.“

Übrigens: „Wir haben nie gesagt, dass wir in Zukunft nie ein Telefon bauen würden.“ Ist das nicht antithetisch zu ihrer ursprünglichen These von einem kleineren, einfacheren Gerät? Vielleicht, vielleicht auch nicht.

In der Zwischenzeit arbeiten sie daran, die Versprechen zu erfüllen, die sie Anfang dieses Jahres gemacht haben. Das neue Modell sollte irgendwann in dieser Woche für jeden r1-Besitzer verfügbar sein, wenn das OTA-Update veröffentlicht wird. Anweisungen zur Aktivierung werden dann ebenfalls eintreffen. Lyu warnte die erwartungsvollen Benutzer mit seinem charakteristischen Understatement.

„Wir setzen die Erwartungen richtig. Es ist nicht perfekt“, sagte er. „Es ist nur das Beste, was die Menschheitsgeschichte bisher erreicht hat.“