
Generative AI hat bereits in Robotern viel Potenzial gezeigt. Anwendungsgebiete umfassen natürliche Sprachinteraktionen, Roboterlernen, No-Code-Programmierung und sogar Design. Googles DeepMind-Robotikteam zeigt diese Woche einen weiteren potenziellen Schnittpunkt zwischen den beiden Disziplinen: Navigation.
In einem Artikel mit dem Titel „Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs“ zeigt das Team, wie es Google Gemini 1.5 Pro implementiert hat, um einem Roboter beizubringen, auf Befehle zu reagieren und sich in einem Büro zu bewegen. Natürlich hat DeepMind einige der Every Day Robots verwendet, die seit der Schließung des Projekts durch Google im letzten Jahr herumhängen.
In einer Reihe von Videos, die dem Projekt beigefügt sind, beginnen die Mitarbeiter von DeepMind mit einem Smart Assistant-ähnlichen „OK, Robot“, bevor sie das System bitten, verschiedene Aufgaben im 9000 Quadratfuß großen Büro auszuführen.

In einem Beispiel bittet ein Googler den Roboter, ihn irgendwo hin zu bringen, um Dinge zu zeichnen. „OK“, antwortet der Roboter, mit einer schicken gelben Fliege, „gib mir eine Minute. Denken mit Gemini ...“ Der Roboter führt dann den Menschen zu einer wandgroßen Wandtafel. In einem zweiten Video fordert eine andere Person den Roboter auf, den Anweisungen auf der Tafel zu folgen.
Ein einfacher Plan zeigt dem Roboter, wie er zur „Blue Area“ gelangen kann. Der Roboter denkt erneut einen Moment nach, bevor er einen langen Weg zu einem Bereich für Robotiktests nimmt. „Ich habe erfolgreich den Anweisungen auf der Tafel gefolgt“, verkündet der Roboter mit einem Selbstvertrauen, von dem die meisten Menschen nur träumen können.
Vor diesen Videos wurden die Roboter mit dem, was das Team „Multimodal Instruction Navigation with demonstration Tours (MINT)“ nennt, vertraut gemacht. Das bedeutet effektiv, den Roboter durch das Büro zu führen und dabei verschiedene markante Punkte mit Sprache zu zeigen. Als nächstes nutzt das Team hierarchische Vision-Sprache-Aktionen (VLA), die „die Umgebungsverständnis und die Kraft des gesunden Menschenverstandes kombinieren“. Wenn die Prozesse kombiniert sind, kann der Roboter auf schriftliche und gezeichnete Befehle sowie Gesten reagieren.

Google gibt an, dass der Roboter bei über 50 Interaktionen mit Mitarbeitern eine Erfolgsrate von etwa 90% hatte.