arXiv:2606.07929: Stres-test medicinskih LLM-ova otkriva skrivenu sigurnosnu patologiju
Novi rad uvodi AI-MASLD, stres-audit okvir posuđen iz hepatologije za evaluaciju kliničkih LLM-ova. Testiranje 7 modela na 240 slučajeva pokazuje da pod narativnim stresom modeli oštro divergiraju, a medicinski fine-tuning sustavno degradira stabilnost i fairness.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
arXiv je 6. lipnja 2026. objavio rad (oznaka arXiv:2606.07929, verzija v1) koji uvodi AI-MASLD, stres-audit okvir za evaluaciju kliničkih (medicinskih) velikih jezičnih modela. Okvir je posuđen iz metaboličkog stres-testiranja u hepatologiji (grani medicine koja se bavi jetrom) i otkriva sigurnosne slabosti koje standardni testovi ne vide.
Što je AI-MASLD i odakle dolazi?
AI-MASLD je metodološki okvir koji medicinske modele ne mjeri samo u idealnim uvjetima, nego ih izlaže kontroliranom “stresu”. Ideja je preuzeta iz hepatologije, gdje se metaboličko stres-testiranje koristi za otkrivanje skrivenih poremećaja koji se ne vide u mirovanju.
Prenesena na velike jezične modele (LLM), logika je ista: model koji izgleda pouzdano u standardnom testu može se urušiti kada se uvjeti promijene. Okvir je zato osmišljen kao audit, a ne kao obična mjera točnosti.
Kako je proveden eksperiment?
Autori su testirali 7 modela na 240 kliničkih slučajeva. Svaki slučaj prošao je kroz 6 narativnih perturbacijskih sondi — varijacija u načinu na koji je klinička priča ispričana, bez mijenjanja same medicinske činjenice.
Rezultati su mjereni kroz tri metrike: metabolic index, perturbation flip rate (stopu preokreta pod perturbacijom) i counterfactual fairness index (indeks kontrafaktualne pravednosti). Te metrike zajedno opisuju koliko je model stabilan i pravedan kada se ulaz suptilno preoblikuje.
Što se događa pod narativnim stresom?
Ključni obrazac je jasan: svi modeli jednako su dobri u osnovnim (baseline) uvjetima, ali oštro divergiraju pod narativnim stresom. Drugim riječima, razlike među modelima ne vide se dok ih se ne optereti.
Posebno zabrinjava nalaz da kvantizirani modeli (oni sa smanjenom preciznošću radi uštede resursa) pokazuju skriveni funkcionalni pad. Taj pad ne otkriva standardno mjerenje, pa može proći nezapaženo sve dok model ne naiđe na nestandardno formuliran slučaj.
Šteti li medicinski fine-tuning?
Jedan od najvažnijih zaključaka rada jest da medicinski fine-tuning sustavno degradira stabilnost i fairness. Prilagodba modela medicinskoj domeni, koja bi trebala povećati pouzdanost, prema ovim mjerenjima zapravo smanjuje otpornost na narativni stres.
To je protuintuitivan, ali sigurnosno značajan nalaz. On upozorava da specijalizacija modela za kliničku upotrebu sama po sebi nije jamstvo sigurnosti i da je potreban dodatni audit poput AI-MASLD.
Koji model se najbolje pokazao?
Rad ističe i ohrabrujući rezultat: jedan open-weight model (model s otvorenim težinama) dostiže ili nadmašuje proprietarne alternative na svim sigurnosnim dimenzijama. Time se pokazuje da otvoreni modeli mogu biti konkurentni i u zahtjevnim, sigurnosno osjetljivim kliničkim scenarijima.
Specifične brojke po pojedinom modelu nalaze se u punom 34-stranom radu, a ne u sažetku. Autori naglašavaju da je cilj okvira otkriti slabosti prije nego što modeli dođu do stvarne kliničke primjene.
Česta pitanja
- Što je AI-MASLD okvir?
- AI-MASLD je stres-audit okvir za evaluaciju kliničkih (medicinskih) velikih jezičnih modela. Posuđen je iz metaboličkog stres-testiranja u hepatologiji (medicini jetre) i testira modele pod narativnim perturbacijama umjesto samo u standardnim uvjetima.
- Koji je ključni nalaz rada?
- Svi testirani modeli jednako su dobri u osnovnim (baseline) uvjetima, ali oštro divergiraju pod narativnim stresom. Kvantizirani modeli pokazuju skriveni funkcionalni pad, a medicinski fine-tuning sustavno degradira stabilnost i fairness (pravednost).
- Kako su modeli mjereni?
- Testirano je 7 modela na 240 kliničkih slučajeva sa 6 narativnih perturbacijskih sondi. Mjerenje se provodilo kroz tri metrike: metabolic index, perturbation flip rate i counterfactual fairness index. Specifične brojke po modelu nalaze se u punom 34-stranom radu.
Povezane vijesti
Anthropic: Red Team mapira AI-omogućene kibernapade na MITRE ATT&CK okvir, u suradnji s Verizonom
AWS: Novi Bedrock InvokeGuardrailChecks API donosi sigurnosne provjere bez resursa za agentske aplikacije
arXiv:2606.07970: Patcher brani open-weight LLM-ove od zlonamjernog fine-tuninga