arXiv:2606.27288: Wann die Kombination von Sprachmodellen wirklich hilft — Co-Failure Ceiling bei 67 Frontier-Modellen
Eine Studie über 67 Frontier-Modelle von 21 Anbietern führt den Begriff Co-Failure Ceiling ein — die Obergrenze der Genauigkeit eines Sprachmodell-Ensembles, die durch die Rate gemeinsamer Fehler aller Modelle bestimmt wird. Die Ergebnisse zeigen, dass die Kombination von Modellen selten ein einzelnes bestes Modell ohne Query-Level-Routing übertrifft.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Was ist der Co-Failure Ceiling?
Ein Ensemble aus Sprachmodellen — ein System, das mehrere Sprachmodelle durch Abstimmung, Routing oder Mixture-of-Agents-Architektur kombiniert — hat eine mathematische Genauigkeitsobergrenze. Forscher Josef Chen definiert den Co-Failure Ceiling Beta als die Rate der Anfragen, bei denen alle Modelle in der Gruppe gleichzeitig versagen: Die Genauigkeit des kombinierten Systems kann den Wert 1 − Beta nicht überschreiten, unabhängig von der Anzahl der Modelle.
Wie hoch ist die Obergrenze in der Praxis?
Die Analyse von 67 Frontier-Modellen von 21 Anbietern zeigt, dass Beta durchgängig höher ist als von Standardstatistikmodellen vorhergesagt. Bei offenen Mathematikaufgaben beträgt das gemessene Beta 0,052, während das theoretische Modell lediglich 0,023 vorhersagt — eine 2,5-fache Unterschätzung (90%-Konfidenzintervall: 1,7× bis 3,4×). Bei Kodierungsaufgaben steigt Beta auf 0,079, und durch Umformatierung der GPQA-Diamond-Fragen von Multiple-Choice zu Freitextantworten erreicht es 0,127.
Wann funktioniert die Kombination, wann nicht?
Heterogene Ensembles mit geringer Fehlerkorrelation übertreffen homogene Self-MoA-Konfigurationen bei gleicher Qualitätsstufe. Doch ohne Query-Level-Routing — die Weiterleitung jeder Anfrage an das am besten geeignete Modell — schlagen kombinierte Systeme selten das einfach gewählte beste Einzelmodell. Die paarweise Fehlerkorrelation, ein gängiges Diagnosemaß für Ensembles, offenbart die Co-Failure-Rate nicht und unterschätzt daher die tatsächliche Obergrenze.
Die Arbeit wurde am 25. Juni 2026 eingereicht.
Häufig gestellte Fragen
- Was ist der Co-Failure Ceiling und warum ist er wichtig?
- Der Co-Failure Ceiling (Beta) ist die Rate der Anfragen, bei denen alle Modelle im Ensemble gleichzeitig versagen — die Systemgenauigkeit kann den Wert 1 minus Beta nicht überschreiten, egal wie viele Modelle hinzugefügt werden.
- Wann bringt die Kombination von Sprachmodellen tatsächlich Vorteile?
- Vorteile entstehen, wenn Modelle bei unterschiedlichen Anfragen versagen und nicht dieselben Schwächen teilen. Query-Level-Routing, das erkennt, welches Modell für welche Anfrage geeignet ist, bleibt der einzige zuverlässige Weg zu besseren Ergebnissen als das beste Einzelmodell.