arXiv:2604.24697: SciCrafter zeigt, dass GPT-5.2, Gemini 3 Pro und Claude Opus 4.5 bei ~26 % im Minecraft-Discovery-to-Application-Test plateauieren
Warum es wichtig ist
SciCrafter ist ein neues Minecraft-basiertes Benchmark, das die Fähigkeit von KI-Agenten testet, kausale Gesetzmäßigkeiten zu entdecken und in funktionale Systeme umzusetzen — die vollständige discovery-to-application-Schleife. GPT-5.2, Gemini 3 Pro und Claude Opus 4.5 plateauieren allesamt bei ~26 % Erfolgsquote. Die Autoren zerlegen die Schleife in vier Fähigkeiten und stellen fest, dass der Engpass sich vom Problemlösen zum Stellen der richtigen Fragen verlagert hat — ein zentrales Signal für die nächste Generation agentischer Systeme.
Ein Team aus 12 Autoren (darunter Yitao Liang, Demetri Terzopoulos und Ying Nian Wu) veröffentlichte am 27. April 2026 das Paper SciCrafter (arXiv:2604.24697) — ein Minecraft-basiertes Benchmark, das testet, was LMArena, MMLU und Chatbot Arena praktisch nicht testen: die Fähigkeit eines KI-Agenten, eine kausale Gesetzmäßigkeit zu entdecken und in eine funktionale Konstruktion umzusetzen. Das ist die vollständige discovery-to-application-Schleife — und Frontier-Modelle plateauieren darin.
Wie ist der Test aufgebaut?
Agenten erhalten eine parametrische Aufgabe zum Bau eines Redstone-Schaltkreises (Minecraft-Logik): eine vorgegebene Lampenkonfiguration simultan oder in zeitlicher Abfolge zu zünden. Die Skalierung der Zielparameter — Anzahl der Lampen, erforderliches Timing — erhöht die benötigte Konstruktionskomplexität und das technische Wissen, was verhindert, dass der Agent Lösungen aus dem Pretraining schlicht “auswendig lernt”. Der Test erzwingt eine echte Entdeckungskomponente statt Pattern Matching.
Welche Modelle wurden getestet und mit welchem Ergebnis?
Frontier-Evaluierung unter einem General-Purpose-Code-Agent-Scaffold: GPT-5.2, Gemini 3 Pro und Claude Opus 4.5. Alle drei plateauieren bei ~26 % Erfolgsquote. Der Unterschied zwischen den Modellen ist kleiner als das Reproduzierbarkeitsrauschen — das Problem liegt also nicht an einem einzelnen Modell, sondern an der gesamten Klasse des Ansatzes.
Warum ist das ein wichtiges Signal?
Die Autoren zerlegen die discovery-to-application-Schleife in vier Fähigkeiten: Knowledge Gap Identification, Experimental Discovery, Knowledge Consolidation und Knowledge Application. Gezielte Interventionen messen den Beitrag jeder Fähigkeit. Das zentrale Ergebnis: Bei Frontier-Modellen ist das größte Hindernis nicht mehr die Wissensanwendung (das klassische “ich kenne diesen Algorithmus nicht”), sondern die Gap Identification — das Modell weiss nicht, was es nicht weiss, und weiss nicht, welche Fragen es stellen muss. In den Worten der Autoren: “Der Engpass verlagert sich vom korrekten Lösen von Problemen zum Stellen der richtigen Probleme.” Das wirkt sich unmittelbar darauf aus, wie die nächste Generation agentischer Systeme konzipiert werden sollte: Tool-Use- und ReAct-Schleifen setzen voraus, dass der Agent weiss, wonach er suchen soll — SciCrafter zeigt, dass diese Annahme nicht bedingungslos gilt. Das Benchmark wurde als offene Diagnose-Sonde veröffentlicht.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
AWS veröffentlicht Leitfaden zum Aufbau von Strands Agents mit SageMaker-KI-Modellen und MLflow-Observability: SageMakerAIModel-Provider, Autolog-Tracing und A/B-Variantentests
OpenAI veröffentlicht Symphony: Open-Source-Spezifikation für die Orchestrierung von Codex-Agenten, die Issue-Tracker in „Always-On”-Ingenieurlösungen verwandelt
arXiv:2604.21910: Agentic AI automatisiert wissenschaftliche Workflows mit 83 % Genauigkeit, 92 % weniger Datentransfer und $0,001 pro Anfrage