Wie viele Arbeiten erhielten auf der AAAI-26 eine KI-Rezension?

Alle 22.977 für den Haupttrack der Konferenz eingereichten Arbeiten erhielten neben den regulären menschlichen Gutachten eine KI-generierte Rezension.

Waren die KI-Rezensionen besser als die menschlichen?

Laut einer Umfrage des Programmausschusses wurden KI-Rezensionen für technische Genauigkeit und die Qualität der Forschungsvorschläge höher bewertet — sie ergänzten jedoch die menschlichen Rezensionen, ersetzten sie nicht.

ArXiv: AAAI-26 führte KI-Begutachtungen für 22.977 Arbeiten durch — Gutachter bewerteten sie besser als menschliche Rezensionen

Was genau geschah auf der AAAI-26?

Die AAAI-26 (Association for the Advancement of Artificial Intelligence) — eine der wichtigsten KI-Konferenzen der Welt — führte ein beispielloses Experiment durch. Alle 22.977 für den Haupttrack eingereichten Arbeiten erhielten neben den standardmäßigen menschlichen Gutachten eine KI-generierte Rezension. Die KI-Rezensionen waren klar gekennzeichnet, damit Gutachter und Autoren wussten, dass sie von einer Maschine stammten.

Das System verwendete fortschrittliche Large Language Models (LLMs) mit Tool-Integration und Sicherheitsmaßnahmen, und alle Rezensionen wurden innerhalb eines einzigen Tages erstellt — drastisch schneller als der menschliche Prozess, der üblicherweise Wochen dauert.

Das überraschende Ergebnis: KI übertraf Menschen

Laut einer Umfrage unter Mitgliedern des Programmausschusses und Autoren der Arbeiten wurden KI-Rezensionen in zwei Schlüsselkategorien höher bewertet als menschliche: technische Genauigkeit und Qualität der Forschungsvorschläge.

Das bedeutet nicht, dass KI-Rezensionen perfekt sind oder menschliche Gutachter ersetzen können. Das Experiment war als Ergänzung konzipiert, nicht als Ersatz — jede Arbeit durchläuft weiterhin den standardmäßigen menschlichen Begutachtungsprozess. Die Tatsache, dass die Teilnehmer das KI-Feedback hilfreicher fanden als die durchschnittliche menschliche Rezension, wirft jedoch wichtige Fragen über die Zukunft des akademischen Publizierens auf.

Die Forscher entwickelten außerdem einen neuen Evaluierungsbenchmark, der zeigt, dass das System einen einfachen LLM-Ansatz bei der Identifizierung wissenschaftlicher Schwächen deutlich übertrifft — was darauf hindeutet, dass ein spezialisierter, werkzeuggestützter Ansatz bessere Ergebnisse liefert als das einfache Übermitteln einer Arbeit an ein Sprachmodell.

Warum ist das für die akademische Gemeinschaft wichtig?

Das akademische Publizieren steht vor einem wachsenden Problem: Die Zahl der Konferenzeinreichungen wächst exponentiell, während die Zahl qualifizierter Gutachter nicht Schritt hält. Das Ergebnis sind oberflächliche Rezensionen, lange Wartezeiten und inkonsistente Standards.

KI-Rezensionen lösen das Problem nicht vollständig, können aber als erster Filter dienen, der Autoren schnelles, technisches Feedback gibt, während sie auf menschliche Gutachten warten. Für Programmausschüsse kann KI offensichtliche Probleme in Arbeiten identifizieren — von mathematischen Fehlern bis hin zu fehlenden Referenzen — und so menschliche Gutachter für tiefere analytische Aufgaben entlasten.

Die Autoren der Arbeit — Joydeep Biswas, Sheila Schoepp und Gautham Vasan — kommen zu dem Schluss, dass „modernste KI-Methoden bereits jetzt erheblich zur wissenschaftlichen Begutachtung im Konferenzmaßstab beitragen können”, und lenken die künftige Forschung auf eine verbesserte Zusammenarbeit zwischen Mensch und KI bei der Forschungsevaluierung.

ArXiv: AAAI-26 führte KI-Begutachtungen für 22.977 Arbeiten durch — Gutachter bewerteten sie besser als menschliche Rezensionen

Was genau geschah auf der AAAI-26?

Das überraschende Ergebnis: KI übertraf Menschen

Warum ist das für die akademische Gemeinschaft wichtig?

Quellen

Verwandte Nachrichten