Selbst einige der besten KI-Systeme können diesen neuen Meilenstein nicht überwinden

Die gemeinnützige Organisation Center for AI Safety (CAIS) und Scale AI, ein Unternehmen, das eine Vielzahl von Datenbeschriftungs- und KI-Entwicklungsdiensten anbietet, haben einen anspruchsvollen neuen Meilenstein für Spitzen-KI-Systeme veröffentlicht.

Der Meilenstein namens Humanity’s Last Exam umfasst Tausende von crowdsourcing-Fragen zu Themen wie Mathematik, Geisteswissenschaften und Naturwissenschaften. Um die Bewertung schwieriger zu machen, sind die Fragen in verschiedenen Formaten gehalten, einschließlich Formaten, die Diagramme und Bilder enthalten.

In einer Vorstudie schaffte es kein einziges öffentlich verfügbares Flaggschiff-KI-System, bei Humanity’s Last Exam eine bessere Punktzahl als 10% zu erzielen.

CAIS und Scale AI planen, den Meilenstein der Forschungsgemeinschaft zugänglich zu machen, damit Forscher "tiefer in die Variationen eintauchen" und neue KI-Modelle bewerten können.