SciCrafter: GPT-5.2, Gemini 3, Opus 4.5 bei 26 % eingefroren

SciCrafter ist ein neues Minecraft-basiertes Benchmark, das die Fähigkeit von KI-Agenten testet, kausale Gesetzmäßigkeiten zu entdecken und in funktionale Systeme umzusetzen — die vollständige discovery-to-application-Schleife. GPT-5.2, Gemini 3 Pro und Claude Opus 4.5 plateauieren allesamt bei ~26 % Erfolgsquote. Die Autoren zerlegen die Schleife in vier Fähigkeiten und stellen fest, dass der Engpass sich vom Problemlösen zum Stellen der richtigen Fragen verlagert hat — ein zentrales Signal für die nächste Generation agentischer Systeme.

Ein Team aus 12 Autoren (darunter Yitao Liang, Demetri Terzopoulos und Ying Nian Wu) veröffentlichte am 27. April 2026 das Paper SciCrafter (arXiv:2604.24697) — ein Minecraft-basiertes Benchmark, das testet, was LMArena, MMLU und Chatbot Arena praktisch nicht testen: die Fähigkeit eines KI-Agenten, eine kausale Gesetzmäßigkeit zu entdecken und in eine funktionale Konstruktion umzusetzen. Das ist die vollständige discovery-to-application-Schleife — und Frontier-Modelle plateauieren darin.

Wie ist der Test aufgebaut?

Agenten erhalten eine parametrische Aufgabe zum Bau eines Redstone-Schaltkreises (Minecraft-Logik): eine vorgegebene Lampenkonfiguration simultan oder in zeitlicher Abfolge zu zünden. Die Skalierung der Zielparameter — Anzahl der Lampen, erforderliches Timing — erhöht die benötigte Konstruktionskomplexität und das technische Wissen, was verhindert, dass der Agent Lösungen aus dem Pretraining schlicht “auswendig lernt”. Der Test erzwingt eine echte Entdeckungskomponente statt Pattern Matching.

Welche Modelle wurden getestet und mit welchem Ergebnis?

Frontier-Evaluierung unter einem General-Purpose-Code-Agent-Scaffold: GPT-5.2, Gemini 3 Pro und Claude Opus 4.5. Alle drei plateauieren bei ~26 % Erfolgsquote. Der Unterschied zwischen den Modellen ist kleiner als das Reproduzierbarkeitsrauschen — das Problem liegt also nicht an einem einzelnen Modell, sondern an der gesamten Klasse des Ansatzes.

Warum ist das ein wichtiges Signal?

Die Autoren zerlegen die discovery-to-application-Schleife in vier Fähigkeiten: Knowledge Gap Identification, Experimental Discovery, Knowledge Consolidation und Knowledge Application. Gezielte Interventionen messen den Beitrag jeder Fähigkeit. Das zentrale Ergebnis: Bei Frontier-Modellen ist das größte Hindernis nicht mehr die Wissensanwendung (das klassische “ich kenne diesen Algorithmus nicht”), sondern die Gap Identification — das Modell weiss nicht, was es nicht weiss, und weiss nicht, welche Fragen es stellen muss. In den Worten der Autoren: “Der Engpass verlagert sich vom korrekten Lösen von Problemen zum Stellen der richtigen Probleme.” Das wirkt sich unmittelbar darauf aus, wie die nächste Generation agentischer Systeme konzipiert werden sollte: Tool-Use- und ReAct-Schleifen setzen voraus, dass der Agent weiss, wonach er suchen soll — SciCrafter zeigt, dass diese Annahme nicht bedingungslos gilt. Das Benchmark wurde als offene Diagnose-Sonde veröffentlicht.

Häufig gestellte Fragen

Was bedeutet 'discovery-to-application gap'?

Es ist die Schleife, in der ein Agent eine kausale Gesetzmäßigkeit entdecken muss (z.B. die Timing-Logik eines Redstone-Schaltkreises) und sie anwenden muss, um ein funktionales System zu bauen (z.B. Lampen in einem vorgegebenen Muster zu zünden). Sie misst das Zusammenspiel von Entdeckung und Ausführung — etwas, das traditionelle LLM-Benchmarks kaum testen.

Welchen Hauptengpass identifizieren die Autoren?

Bei Frontier-Modellen (GPT-5.2, Gemini 3 Pro, Claude Opus 4.5) ist das größte neue Hindernis die 'Knowledge Gap Identification' — die Fähigkeit zu erkennen, was der Agent NICHT weiss, und welche Frage überhaupt gestellt werden muss. Die Verlagerung geht von 'korrekt lösen' zu 'die richtige Frage stellen'.

arXiv:2604.24697: SciCrafter zeigt, dass GPT-5.2, Gemini 3 Pro und Claude Opus 4.5 bei ~26 % im Minecraft-Discovery-to-Application-Test plateauieren

Wie ist der Test aufgebaut?

Welche Modelle wurden getestet und mit welchem Ergebnis?

Warum ist das ein wichtiges Signal?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten