🤖 24 AI
🟡 💬 Community Donnerstag, 16. April 2026 · 2 Min. Lesezeit

ArXiv: AAAI-26 führte KI-Begutachtungen für 22.977 Arbeiten durch — Gutachter bewerteten sie besser als menschliche Rezensionen

Warum es wichtig ist

AAAI-26 hat das erste KI-gestützte Peer-Review-Experiment im Konferenzmaßstab durchgeführt — alle 22.977 eingereichten Arbeiten erhielten neben den menschlichen Gutachten eine klar gekennzeichnete KI-generierte Rezension. Mitglieder des Programmausschusses bewerteten die KI-Rezensionen hinsichtlich technischer Genauigkeit und Forschungsvorschlägen höher als die menschlichen.

Was genau geschah auf der AAAI-26?

Die AAAI-26 (Association for the Advancement of Artificial Intelligence) — eine der wichtigsten KI-Konferenzen der Welt — führte ein beispielloses Experiment durch. Alle 22.977 für den Haupttrack eingereichten Arbeiten erhielten neben den standardmäßigen menschlichen Gutachten eine KI-generierte Rezension. Die KI-Rezensionen waren klar gekennzeichnet, damit Gutachter und Autoren wussten, dass sie von einer Maschine stammten.

Das System verwendete fortschrittliche Large Language Models (LLMs) mit Tool-Integration und Sicherheitsmaßnahmen, und alle Rezensionen wurden innerhalb eines einzigen Tages erstellt — drastisch schneller als der menschliche Prozess, der üblicherweise Wochen dauert.

Das überraschende Ergebnis: KI übertraf Menschen

Laut einer Umfrage unter Mitgliedern des Programmausschusses und Autoren der Arbeiten wurden KI-Rezensionen in zwei Schlüsselkategorien höher bewertet als menschliche: technische Genauigkeit und Qualität der Forschungsvorschläge.

Das bedeutet nicht, dass KI-Rezensionen perfekt sind oder menschliche Gutachter ersetzen können. Das Experiment war als Ergänzung konzipiert, nicht als Ersatz — jede Arbeit durchläuft weiterhin den standardmäßigen menschlichen Begutachtungsprozess. Die Tatsache, dass die Teilnehmer das KI-Feedback hilfreicher fanden als die durchschnittliche menschliche Rezension, wirft jedoch wichtige Fragen über die Zukunft des akademischen Publizierens auf.

Die Forscher entwickelten außerdem einen neuen Evaluierungsbenchmark, der zeigt, dass das System einen einfachen LLM-Ansatz bei der Identifizierung wissenschaftlicher Schwächen deutlich übertrifft — was darauf hindeutet, dass ein spezialisierter, werkzeuggestützter Ansatz bessere Ergebnisse liefert als das einfache Übermitteln einer Arbeit an ein Sprachmodell.

Warum ist das für die akademische Gemeinschaft wichtig?

Das akademische Publizieren steht vor einem wachsenden Problem: Die Zahl der Konferenzeinreichungen wächst exponentiell, während die Zahl qualifizierter Gutachter nicht Schritt hält. Das Ergebnis sind oberflächliche Rezensionen, lange Wartezeiten und inkonsistente Standards.

KI-Rezensionen lösen das Problem nicht vollständig, können aber als erster Filter dienen, der Autoren schnelles, technisches Feedback gibt, während sie auf menschliche Gutachten warten. Für Programmausschüsse kann KI offensichtliche Probleme in Arbeiten identifizieren — von mathematischen Fehlern bis hin zu fehlenden Referenzen — und so menschliche Gutachter für tiefere analytische Aufgaben entlasten.

Die Autoren der Arbeit — Joydeep Biswas, Sheila Schoepp und Gautham Vasan — kommen zu dem Schluss, dass „modernste KI-Methoden bereits jetzt erheblich zur wissenschaftlichen Begutachtung im Konferenzmaßstab beitragen können”, und lenken die künftige Forschung auf eine verbesserte Zusammenarbeit zwischen Mensch und KI bei der Forschungsevaluierung.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.