🟢 🤖 Modelle Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2606.27288: Wann die Kombination von Sprachmodellen wirklich hilft — Co-Failure Ceiling bei 67 Frontier-Modellen

arXiv:2606.27288 ↗

Editorial illustration: Diagramm der Genauigkeits-Obergrenze für eine Gruppe von KI-Modellen, abstrakte Grafiken ohne Gesichter

Eine Studie über 67 Frontier-Modelle von 21 Anbietern führt den Begriff Co-Failure Ceiling ein — die Obergrenze der Genauigkeit eines Sprachmodell-Ensembles, die durch die Rate gemeinsamer Fehler aller Modelle bestimmt wird. Die Ergebnisse zeigen, dass die Kombination von Modellen selten ein einzelnes bestes Modell ohne Query-Level-Routing übertrifft.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Was ist der Co-Failure Ceiling?

Ein Ensemble aus Sprachmodellen — ein System, das mehrere Sprachmodelle durch Abstimmung, Routing oder Mixture-of-Agents-Architektur kombiniert — hat eine mathematische Genauigkeitsobergrenze. Forscher Josef Chen definiert den Co-Failure Ceiling Beta als die Rate der Anfragen, bei denen alle Modelle in der Gruppe gleichzeitig versagen: Die Genauigkeit des kombinierten Systems kann den Wert 1 − Beta nicht überschreiten, unabhängig von der Anzahl der Modelle.

Wie hoch ist die Obergrenze in der Praxis?

Die Analyse von 67 Frontier-Modellen von 21 Anbietern zeigt, dass Beta durchgängig höher ist als von Standardstatistikmodellen vorhergesagt. Bei offenen Mathematikaufgaben beträgt das gemessene Beta 0,052, während das theoretische Modell lediglich 0,023 vorhersagt — eine 2,5-fache Unterschätzung (90%-Konfidenzintervall: 1,7× bis 3,4×). Bei Kodierungsaufgaben steigt Beta auf 0,079, und durch Umformatierung der GPQA-Diamond-Fragen von Multiple-Choice zu Freitextantworten erreicht es 0,127.

Wann funktioniert die Kombination, wann nicht?

Heterogene Ensembles mit geringer Fehlerkorrelation übertreffen homogene Self-MoA-Konfigurationen bei gleicher Qualitätsstufe. Doch ohne Query-Level-Routing — die Weiterleitung jeder Anfrage an das am besten geeignete Modell — schlagen kombinierte Systeme selten das einfach gewählte beste Einzelmodell. Die paarweise Fehlerkorrelation, ein gängiges Diagnosemaß für Ensembles, offenbart die Co-Failure-Rate nicht und unterschätzt daher die tatsächliche Obergrenze.

Die Arbeit wurde am 25. Juni 2026 eingereicht.

Häufig gestellte Fragen

Was ist der Co-Failure Ceiling und warum ist er wichtig?
Der Co-Failure Ceiling (Beta) ist die Rate der Anfragen, bei denen alle Modelle im Ensemble gleichzeitig versagen — die Systemgenauigkeit kann den Wert 1 minus Beta nicht überschreiten, egal wie viele Modelle hinzugefügt werden.
Wann bringt die Kombination von Sprachmodellen tatsächlich Vorteile?
Vorteile entstehen, wenn Modelle bei unterschiedlichen Anfragen versagen und nicht dieselben Schwächen teilen. Query-Level-Routing, das erkennt, welches Modell für welche Anfrage geeignet ist, bleibt der einzige zuverlässige Weg zu besseren Ergebnissen als das beste Einzelmodell.