Co-Failure Ceiling: kad ansambl LLM-ova ne pomaže

Istraživanje na 67 frontier modela od 21 providera uvodi pojam co-failure ceiling — gornju granicu točnosti ansambla LLM-ova određenu stopom kad svi modeli griješe na istom upitu. Rezultati pokazuju da kombiniranje modela rijetko nadmašuje jedan najjači model bez query-level routinga.

Što je co-failure ceiling?

Ansambl (ensemble) LLM-ova — sustav koji kombinira više jezičnih modela glasanjem, routingom ili Mixture-of-Agents arhitekturom — ima matematički strop točnosti. Istraživač Josef Chen definira co-failure ceiling beta kao stopu upita na kojima svi modeli u skupini griješe istovremeno: točnost kombiniranog sustava ne može prijeći vrijednost 1 − beta, neovisno o broju modela.

Koliki je strop u praksi?

Analiza 67 frontier modela od 21 providera pokazuje da je beta dosljedno viši nego što ga standardni statistički modeli predviđaju. Na zadacima otvorene matematike izmjereni beta iznosi 0,052, dok teorijski model predviđa svega 0,023 — gotovo 2,5× podcijenjeno (90%-tni interval pouzdanosti: 1,7× do 3,4×). Na kodiranju beta raste na 0,079, a reformatiranjem GPQA-Diamond pitanja iz višestrukog izbora u slobodne odgovore doseže 0,127.

Kad kombiniranje radi, a kad ne?

Heterogeni ansambli s niskom korelacijom pogrešaka nadmašuju homogene Self-MoA konfiguracije pri istoj razini kvalitete. No bez query-level routinga — usmjeravanja svakog upita prema modelu koji je za njega najprikladniji — kombinirani sustavi rijetko pobijaju jednostavno odabrani najjači pojedinačni model. Pairwise korelacija grešaka, uobičajena mjera dijagnostike ansambla, ne otkriva co-failure rate i stoga podcjenjuje stvarni strop.

Rad je predan 25. lipnja 2026.

Česta pitanja

Što je co-failure ceiling i zašto je važan?

Co-failure ceiling (beta) je stopa upita na kojima svi modeli u ansamblu griješe — točnost sustava ne može prijeći vrijednost 1 minus beta, bez obzira koliko modela dodamo.

Kada kombiniranje LLM-ova zaista donosi korist?

Korist postoji kad modeli griješe na različitim upitima, a ne kad dijele zajedničke slabosti. Query-level routing koji prepoznaje koji model je dobar za koji upit ostaje jedini pouzdani put do boljih rezultata od najboljeg pojedinačnog modela.

arXiv:2606.27288: Kad kombiniranje LLM-ova stvarno pomaže — co-failure ceiling na 67 frontier modela

Što je co-failure ceiling?

Koliki je strop u praksi?

Kad kombiniranje radi, a kad ne?

Česta pitanja

Izvori

Povezane vijesti