Selbst einige der besten KI-Systeme können diesen neuen Meilenstein nicht überwinden

Südliche Nachrichten

Sunday, April 20 2025

Die gemeinnützige Organisation Center for AI Safety (CAIS) und Scale AI, ein Unternehmen, das eine Vielzahl von Datenbeschriftungs- und KI-Entwicklungsdiensten anbietet, haben einen anspruchsvollen neuen Meilenstein für Spitzen-KI-Systeme veröffentlicht.

Der Meilenstein namens Humanity’s Last Exam umfasst Tausende von crowdsourcing-Fragen zu Themen wie Mathematik, Geisteswissenschaften und Naturwissenschaften. Um die Bewertung schwieriger zu machen, sind die Fragen in verschiedenen Formaten gehalten, einschließlich Formaten, die Diagramme und Bilder enthalten.

In einer Vorstudie schaffte es kein einziges öffentlich verfügbares Flaggschiff-KI-System, bei Humanity’s Last Exam eine bessere Punktzahl als 10% zu erzielen.

CAIS und Scale AI planen, den Meilenstein der Forschungsgemeinschaft zugänglich zu machen, damit Forscher "tiefer in die Variationen eintauchen" und neue KI-Modelle bewerten können.

Südliche Nachrichten

Selbst einige der besten KI-Systeme können diesen neuen Meilenstein nicht überwinden

Recent Posts

Wong und Refsnyder schlagen Homeruns, und die Red Sox gewinnen die Serie gegen die Reds mit einem 7-4 Sieg

Padres sichern sich mit einem 4:2-Sieg über die NL West-führenden Dodgers in der Eröffnungsserie einen Postseason-Bericht

Axelera sichert sich neue Mittel, da der Markt für KI-Chips heiß wird

Amazon erhöht die Preise für seine Music Unlimited-Abonnements

Aktuelle Börse: Wall Street spürt den Druck durch gute Nachrichten über die Wirtschaft