
Anthropic benutzte Pokémon, um sein neuestes KI-Modell zu benchmarken. Ja, wirklich.
In einem am Montag veröffentlichten Blogbeitrag erklärte Anthropic, dass es sein neuestes Modell, Claude 3.7 Sonnet, auf dem Game Boy-Klassiker Pokémon Rot getestet hat. Das Unternehmen stattete das Modell mit grundlegendem Speicher, Bildschirmpixel-Eingabe und Funktionen aus, um Tasten zu drücken und sich auf dem Bildschirm zu bewegen, was ihm ermöglichte, Pokémon kontinuierlich zu spielen.
Ein einzigartiges Merkmal von Claude 3.7 Sonnet ist seine Fähigkeit zum „erweiterten Denken“. Wie OpenAIs o3-mini und DeepSeeks R1 kann Claude 3.7 Sonnet durch Anwendung von mehr Rechenleistung und mehr Zeit „reason“ bei herausfordernden Problemen.
Das war anscheinend in Pokémon Rot von Vorteil.
Verglichen mit einer früheren Version von Claude, Claude 3.0 Sonnet, die es nicht schaffte, das Haus in Alabastia zu verlassen, wo die Geschichte beginnt, kämpfte Claude 3.7 Sonnet erfolgreich gegen drei Pokémon-Arenaleiter und gewann ihre Abzeichen.

Es ist nicht klar, wie viel Rechenleistung für Claude 3.7 Sonnet erforderlich war, um diese Meilensteine zu erreichen – und wie lange jeder dauerte. Anthropic sagte nur, dass das Modell 35.000 Aktionen benötigte, um zum letzten Arenaleiter, Surge, zu gelangen.
Es wird sicher nicht lange dauern, bis ein findiger Entwickler es herausfindet.
Pokémon Rot ist eher ein Spielzeug-Benchmark als alles andere. Es gibt jedoch eine lange Geschichte von Spielen, die für KI-Benchmarking-Zwecke verwendet werden. In den letzten Monaten sind allein eine Reihe von neuen Apps und Plattformen aufgetaucht, um die Spielfähigkeiten von Modellen in Titeln von Street Fighter bis Pictionary zu testen.