
Aktualisiert um 14:40 Uhr PT: Stunden nach der Veröffentlichung von GPT-4.5 entfernte OpenAI eine Zeile aus dem Whitepaper des KI-Modells, die besagte, 'GPT-4.5 ist kein Grenz-KI-Modell'. Das neue Whitepaper von GPT-4.5 enthält diese Zeile nicht mehr. Den Link zum alten Whitepaper finden Sie hier. Der ursprüngliche Artikel folgt.
OpenAI kündigte am Donnerstag an, dass es GPT-4.5 einführt, das lang erwartete KI-Modell mit dem Codenamen Orion. GPT-4.5 ist OpenAIs bisher größtes Modell, das mit mehr Rechenleistung und Daten als alle vorherigen Veröffentlichungen des Unternehmens trainiert wurde.
Trotz seiner Größe gibt OpenAI in einem Whitepaper an, dass es GPT-4.5 nicht als ein führendes Modell betrachtet.
Abonnenten von ChatGPT Pro, dem 200-Dollar-Pro-Monat-Plan von OpenAI, werden ab Donnerstag Zugang zu GPT-4.5 in ChatGPT im Rahmen einer Forschungsvorschau erhalten. Entwickler in kostenpflichtigen Ebenen von OpenAIs API können GPT-4.5 ab heute nutzen. Was andere ChatGPT-Benutzer betrifft, sollten Kunden, die sich für ChatGPT Plus und ChatGPT Team angemeldet haben, das Modell in der kommenden Woche erhalten, sagte ein OpenAI-Sprecher gegenüber TechCrunch.
Die Branche hat den Atem angehalten, um Orion zu sehen, den einige als Gradmesser für die Lebensfähigkeit herkömmlicher KI-Trainingsansätze betrachten. GPT-4.5 wurde mit derselben Schlüsseltechnik entwickelt - der drastischen Erhöhung der Rechenleistung und Daten während einer 'Vortrainingsphase' namens unüberwachtes Lernen -, die OpenAI zur Entwicklung von GPT-4, GPT-3, GPT-2 und GPT-1 verwendet hat.
In jeder GPT-Generation vor GPT-4.5 führte das Skalieren zu massiven Leistungssprüngen in verschiedenen Bereichen, einschließlich Mathematik, Schreiben und Codierung. Tatsächlich hat OpenAI festgestellt, dass die vergrößerte Größe von GPT-4.5 ihm 'ein tieferes Weltwissen' und 'eine höhere emotionale Intelligenz' gegeben hat. Es gibt jedoch Anzeichen dafür, dass die Gewinne aus der Skalierung von Daten und Rechenleistung langsam abnehmen. Auf mehreren KI-Benchmarks schneidet GPT-4.5 schlechter ab als neuere KI-'Begründungsmodelle' von der chinesischen KI-Firma DeepSeek, Anthropic und OpenAI selbst.
OpenAI gibt auch zu, dass GPT-4.5 sehr teuer im Betrieb ist - so teuer, dass das Unternehmen erwägt, ob es GPT-4.5 langfristig in seiner API weiter bedienen soll. Um auf die API von GPT-4.5 zuzugreifen, berechnet OpenAI Entwicklern 75 US-Dollar für jeden Millioneneingabetoken (ungefähr 750.000 Wörter) und 150 US-Dollar für jeden Millionenausgabetoken. Im Vergleich dazu kostet GPT-4o nur 2,50 US-Dollar pro Millioneneingabetoken und 10 US-Dollar pro Millionenausgabetoken.
'Wir teilen GPT-4.5 als Forschungsvorschau, um seine Stärken und Schwächen besser zu verstehen', sagte OpenAI in einem Blogbeitrag, der TechCrunch geteilt wurde. 'Wir erforschen immer noch, wozu es fähig ist, und sind gespannt darauf, wie die Menschen es auf unerwartete Weise nutzen werden.'
Mixed performance
OpenAI betont, dass GPT-4.5 nicht als direkter Ersatz für GPT-4o gedacht ist, das Arbeitspferdmodell des Unternehmens, das den Großteil seiner API und ChatGPT antreibt. Während GPT-4.5 Funktionen wie Datei- und Bilduploads und ChatGPTs Zeichenwerkzeug unterstützt, fehlen ihm derzeit Funktionen wie die Unterstützung für ChatGPTs realistischen Zwei-Wege-Sprachmodus.
Im Pluspunkt ist GPT-4.5 performanter als GPT-4o - und viele andere Modelle ebenfalls.
Auf OpenAIs SimpleQA-Benchmark, der KI-Modelle auf einfache, faktische Fragen testet, übertrifft GPT-4.5 GPT-4o und OpenAIs Begründungsmodelle o1 und o3-mini in Bezug auf Genauigkeit. Laut OpenAI halluziniert GPT-4.5 seltener als die meisten Modelle, was theoretisch bedeutet, dass es weniger wahrscheinlich ist, Dinge zu erfinden.
OpenAI hat sein Spitzen-Begründungsmodell deep research nicht im SimpleQA aufgeführt. Ein Sprecher von OpenAI sagte gegenüber TechCrunch, dass die Leistung von deep research auf diesem Benchmark noch nicht öffentlich gemeldet wurde und behauptete, dass es kein relevanter Vergleich sei. Bemerkenswert ist, dass das KI-Startup Perplexitys Deep Research-Modell, das auf anderen Benchmarks ähnlich gut abschneidet wie OpenAIs deep research, GPT-4.5 bei diesem Test der faktischen Genauigkeit übertrifft.

Auf einer Teilmenge von Codieraufgaben, dem SWE-Bench Verified-Benchmark, entspricht GPT-4.5 in etwa der Leistung von GPT-4o und o3-mini, erreicht aber nicht das Niveau von OpenAIs deep research und Anthropics Claude 3.7 Sonnet. Bei einem anderen Codierungstest, dem SWE-Lancer-Benchmark von OpenAI, der die Fähigkeit eines KI-Modells misst, vollständige Softwarefunktionen zu entwickeln, übertrifft GPT-4.5 GPT-4o und o3-mini, erreicht aber nicht das Niveau von deep research.


GPT-4.5 erreicht nicht ganz die Leistung führender KI-Begründungsmodelle wie o3-mini, DeepSeeks R1 und Claude 3.7 Sonnet (technisch gesehen ein Hybridmodell) auf schwierigen akademischen Benchmarks wie AIME und GPQA. Aber GPT-4.5 erreicht oder übertrifft führende nicht-begründende Modelle bei denselben Tests, was darauf hindeutet, dass das Modell bei mathematischen und naturwissenschaftlichen Problemen gut abschneidet.
OpenAI behauptet auch, dass GPT-4.5 qualitativ überlegen ist anderen Modellen in Bereichen, die Benchmarks nicht gut erfassen, wie der Fähigkeit, menschliche Absichten zu verstehen. GPT-4.5 reagiert in einem wärmeren und natürlicheren Ton, sagt OpenAI, und bewältigt gut kreative Aufgaben wie Schreiben und Design.
In einem informellen Test forderte OpenAI GPT-4.5 und zwei andere Modelle, GPT-4o und o3-mini, auf, ein Einhorn in SVG zu erstellen, einem Format zur Anzeige von Grafiken basierend auf mathematischen Formeln und Code. GPT-4.5 war das einzige KI-Modell, das etwas Ähnliches wie ein Einhorn erstellte.

In einem anderen Test forderte OpenAI GPT-4.5 und die anderen beiden Modelle auf, auf die Aufforderung 'Ich habe nach dem Bestehen eines Tests eine schwierige Zeit' zu antworten. GPT-4o und o3-mini gaben hilfreiche Informationen, aber die Antwort von GPT-4.5 war am sozialsten angemessen.
'Wir freuen uns darauf, durch diese Veröffentlichung ein umfassenderes Bild von den Fähigkeiten von GPT-4.5 zu erhalten', schrieb OpenAI in dem Blogbeitrag, 'weil wir erkennen, dass akademische Benchmarks nicht immer die realen Nützlichkeit widerspiegeln'.

Skalierungsgesetze in Frage gestellt
OpenAI behauptet, dass GPT-4.5 'an der Grenze dessen liegt, was im unüberwachten Lernen möglich ist'. Das mag stimmen, aber die Grenzen des Modells scheinen auch Vermutungen von Experten zu bestätigen, dass die 'Skalierungsgesetze' des Vortrainings nicht weiterhin gelten werden.
Der Mitbegründer und ehemalige Chef-Wissenschaftler von OpenAI, Ilya Sutskever, sagte im Dezember, dass 'wir den Höchststand an Daten erreicht haben' und dass 'das Vortrainingsverfahren, wie wir es kennen, zweifellos enden wird'. Seine Aussagen spiegelten Bedenken wider, die KI-Investoren, Gründer und Forscher mit TechCrunch für ein Feature im November teilten.
Als Antwort auf die Hindernisse des Vortrainings hat die Branche - einschließlich OpenAI - Begründungsmodelle angenommen, die länger als nicht-begründende Modelle benötigen, um Aufgaben zu erledigen, aber tendenziell konsistenter sind. Indem die KI-Labore die Menge an Zeit und Rechenleistung erhöhen, die KI-Begründungsmodelle benötigen, um Probleme 'durchzudenken', sind sie zuversichtlich, die Fähigkeiten der Modelle signifikant verbessern zu können.
OpenAI plant, seine GPT-Modellreihe schließlich mit seiner 'o'-Begründungsreihe zu kombinieren, beginnend mit GPT-5 später in diesem Jahr. GPT-4.5, das offenbar extrem teuer im Training war, mehrmals verzögert wurde und interne Erwartungen nicht erfüllte, könnte alleine nicht die KI-Benchmark-Krone erringen. Aber OpenAI sieht es wahrscheinlich als einen Zwischenschritt zu etwas weit Mächtigerem.