Klinički LLM: sigurnost ne skalira s veličinom modela

Novi rad pokazuje da sigurnost kliničkih LLM-ova ne slijedi iste zakone skaliranja kao točnost — čišći dokazi u RAG-u podižu točnost s 73,5% na 94,1%, a smanjuju visokorizične greške s 12% na 2,6% više od povećanja modela.

Novi rad donosi neugodnu poruku industriji medicinskog AI-ja: sigurnost kliničkih jezičnih modela ne slijedi iste zakone skaliranja kao njihova opća točnost. Tim autora koristi vlastiti RadSaFE-200 benchmark, sastavljen od 200 klinički rizičnih radioloških pitanja koje su validirali radiolozi, kako bi ispitao kako se modeli ponašaju u rubnim slučajevima.

Što znači “različiti zakoni skaliranja”?

Scaling law je empirijska zakonitost koja opisuje kako se performanse modela mijenjaju s veličinom — bilo kroz parametre, podatke ili compute. High-risk error u kliničkom kontekstu znači greška koja može izravno ugroziti pacijenta, primjerice propušteni nalaz tumora ili pogrešno tumačenje radiološkog snimka.

Rad pokazuje da čisto povećanje veličine modela ili kontekstnog prozora ne smanjuje visokorizične greške proporcionalno smanjenju opće greške. Drugim riječima, veći model nije automatski sigurniji model.

Što stvarno smanjuje rizik?

Čišći dokazi u RAG-u dramatično poboljšavaju oba pokazatelja istovremeno: točnost raste s 73,5% na 94,1%, a stopa visokorizičnih grešaka pada s 12% na 2,6%. Ova razlika je veća nego ikoji efekt skaliranja modela koji autori mjere.

Zaključak je direktno relevantan za sve koji razvijaju medicinske AI asistente: deployment odluke — kvaliteta baze znanja, dizajn dohvaćanja, konstrukcija konteksta — primarni su determinant sigurnosti, ne samo veličina modela.

Implikacije za regulatore i razvojne timove

Rad uvodi SaFE-Scale okvir kao formalni pristup razdvajanju zakona skaliranja sigurnosti i točnosti. Ima konkretne posljedice za regulatorna tijela koja razmatraju certifikaciju kliničkih AI sustava — mjerenje samo opće točnosti može propustiti sigurnosne propuste.

Za europske razvojne timove koji rade pod EU AI Act-om i pripremaju klasifikaciju visokorizičnih medicinskih sustava, rezultati sugeriraju da auditi moraju eksplicitno odvojiti sigurnosne metrike od accuracy metrika. Validacijski protokoli koji se oslanjaju na zbirne benchmark brojke riskiraju propustiti upravo one greške koje mogu naštetiti pacijentu.

Česta pitanja

Zašto sigurnost ne raste linearno s veličinom modela?

RadSaFE-200 benchmark pokazuje da povećanje parametara ili kontekstnog prozora ne smanjuje visokorizične greške jednakim tempom kao opću točnost — kvaliteta dohvaćenih dokaza u RAG-u dominira nad veličinom modela.

Što je RadSaFE-200?

Benchmark od 200 klinički rizičnih radioloških pitanja validiranih od strane radiologa, fokusiran na greške koje mogu izravno ugroziti pacijenta.

Što je SaFE-Scale okvir?

Formalni pristup razdvajanju zakona skaliranja sigurnosti i točnosti, predložen kao alat za regulatore koji procjenjuju kliničke AI sustave.

arXiv:2605.04039: Sigurnost i točnost kliničkih LLM-ova slijede različite zakone skaliranja

Što znači “različiti zakoni skaliranja”?

Što stvarno smanjuje rizik?

Implikacije za regulatore i razvojne timove

Česta pitanja

Izvori

Povezane vijesti