arXiv:2605.06635: LLM-Agenten zitieren, aber verifizieren nicht — Links 94 %+ gültig, Genauigkeit nur 39–77 %
Neue Forschung testete 14 LLM-Modelle in Deep-Research-Aufgaben und deckte eine große Lücke auf: Links sind in 94 %+ der Fälle gültig, aber die faktische Genauigkeit der Zitate beträgt nur 39–77 %. Der Kernbefund: Die Zitiergenauigkeit sinkt um 42 %, wenn die Zahl der Tools von 2 auf 150 steigt — was die Annahme widerlegt, dass mehr Abrufe bessere Qualität bedeuten.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Die Studie „Cited but Not Verified” (Onweller et al., arXiv:2605.06635), veröffentlicht am 7. Mai 2026, deckt eine erhebliche Lücke zwischen der oberflächlichen Qualität von Zitaten und der tatsächlichen faktischen Zuverlässigkeit von LLM-Deep-Research-Agenten auf. Das Team entwickelte einen AST-Parser, der Inline-Zitate aus Markdown-Berichten extrahiert und entlang drei Dimensionen evaluiert: URL-Verfügbarkeit, Inhaltsrelevanz und faktische Genauigkeit.
Was sagen die Zahlen?
Frontier-Modelle halten die Link-Gültigkeit bei über 94 % und die Relevanz über 80 % — doch die faktische Genauigkeit gegenüber dem Quellmaterial liegt lediglich zwischen 39 % und 77 %. Mit anderen Worten: Der zitierte Link existiert und ist thematisch relevant, bestätigt aber nicht immer die Aussage, die der Agent damit belegt.
Warum bedeutet mehr Suche weniger Genauigkeit?
Der bedeutendste Befund der Studie ist das inverse Verhältnis zwischen Recherchemtiefe und Zuverlässigkeit. Steigt die Zahl der Tool-Aufrufe von 2 auf 150, sinkt die Fact-Check-Accuracy um durchschnittlich 42 %. Dies widerlegt die intuitive Annahme, dass gründlichere Deep Research bessere Ergebnisse liefert — in der Praxis häufen tiefere Recherchen Fehler an und verdünnen die Aufmerksamkeit des Modells für einzelne Quellen.
Was bedeutet das für Nutzer?
Für Journalisten, Forscher und Unternehmen, die auf Deep-Research-Agenten setzen, ist der Befund ein Warnsignal: Ein Link im Bericht ist keine Garantie dafür, dass die Quelle die Aussage stützt. Weniger als die Hälfte der Open-Source-Modelle war überhaupt in der Lage, im Single-Shot-Modus zitierte Berichte zu generieren. Die Studie legt nahe, dass die manuelle Verifikation wichtiger Zitate weiterhin notwendig ist — besonders bei risikoreichen Aufgaben wie rechtlichen oder medizinischen Recherchen.
Häufig gestellte Fragen
- Was bedeutet „Fact Check Accuracy”?
- Fact Check Accuracy ist eine Metrik, die misst, wie gut der Inhalt eines Zitats mit der Aussage übereinstimmt, die es im Text referenziert — also ob die zitierte Quelle tatsächlich das bestätigt, was das LLM behauptet. Sie unterscheidet sich davon, lediglich zu prüfen, ob ein Link geöffnet werden kann.
- Warum sinkt die Genauigkeit mit der Recherchemtiefe?
- Die Forscher zeigten, dass bei einem Anstieg der Tool-Aufrufe von 2 auf 150 die faktische Genauigkeit um durchschnittlich 42 % sinkt. Mögliche Ursachen: kumulative Fehler, geringere Aufmerksamkeit für einzelne Quellen und die Tendenz der Modelle, plausible Zitate ohne echte Verifikation zu generieren.
- Welche Modelle wurden getestet?
- Das Team benchmarkte 14 Modelle — eine Kombination aus geschlossenen Frontier-Systemen und Open-Source-Modellen. Weniger als die Hälfte der Open-Source-Modelle konnte im Single-Shot-Modus zitierte Berichte erfolgreich generieren.
Quellen
Verwandte Nachrichten
arXiv:2605.21006: Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen
Black Forest Labs: FLUX Erase übertrifft GPT Image-2 (68,5 %) und Finegrain (63,2 %) bei der promptlosen Objektentfernung
arXiv:2605.19762: ICML-2026-Paper behauptet, Code verbessert nicht das Mathe-Reasoning von LLMs