arXiv:2606.19245: TxBench-PP — AI agenti u potrazi za novim lijekovima
TxBench-PP je benchmark koji testira AI agente u pretkliničkoj farmakologiji malih molekula kroz 4.800 trajektorija i 11 modela. Claude Opus 4.8 postiže 59,3% uspješnosti i vodi ispred GPT-5.5 s 55,3%, no nijedan model ne dostiže razinu pouzdanu za medicinsku primjenu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi standard za testiranje AI u razvoju lijekova
Pretklinička farmakologija označava fazu istraživanja lijeka koja prethodi ispitivanjima na ljudima — u njoj se istražuju sigurnost, toksičnost i mehanizam djelovanja potencijalnih terapeutskih molekula. Upravo tu fazu cilja TxBench-PP, benchmark predstavljen u arXiv:2606.19245, koji sustavno mjeri koliko daleko AI agenti mogu stići u ovom zahtjevnom području. Skup od 100 evaluacijskih zadataka i 4.800 trajektorija — redoslijeda koraka koje agent poduzima — čini ga jednim od najopsežnijih testova ove vrste.
Claude Opus 4.8 vodi, ali jaz do pouzdanosti ostaje velik
Rezultati za 11 testiranih modela pokazuju jasan poredak, ali i zajednički problem. Claude Opus 4.8 postiže 59,3% uspješnosti (178 od 300 pokušaja; 95% CI 51,1–67,6%), što ga čini najboljim modelom u ovom skupu. GPT-5.5 slijedi s 55,3%. Razlika od gotovo četiri postotna boda može izgledati skromno, ali u kontekstu farmaceutskih istraživanja znači manji broj skupih eksperimentalnih promašaja. Ključni zaključak istraživača ipak ostaje isti za oba modela: nijedan nije pouzdan za samostalnu primjenu u istraživačkim protokolima.
Više od polovice grešaka ne smije biti standard
Zašto 59% nije dovoljno? U laboratorijskom okruženju gdje svaki pogrešan smjer istraživanja može koštati tjedne rada i stotine tisuća eura, model koji griješi u gotovo svakom drugom zadatku nije zamjena za stručnog istraživača — tek asistencijski alat koji zahtijeva strogu provjeru. Autori naglašavaju da TxBench-PP nije dizajniran kako bi modele prikazao u lošem svjetlu, nego kako bi identificirao konkretne slabosti: agenti posebno loše prolaze na zadacima koji zahtijevaju integraciju farmakokinetičkih podataka s toksikološkim profilima.
Benchmark kao mapa za buduće poboljšanje
TxBench-PP otvara put strukturiranom poboljšanju AI alata za drug discovery. Farmaceutske kompanije poput Exscientia, Recursion Pharmaceuticals i Insilico Medicine već integriraju AI u rane faze istraživanja, ali dosad bez standardiziranog mjerila. Ovaj benchmark može postati referentna točka za procjenu novih modela — i motivacija za specijalizirana fino-ugađanja koja bi mogla premostiti jaz između trenutnih 59% i razine nužne za sigurnu kliničku primjenu.
Česta pitanja
- Zašto nijedan AI model nije pouzdan za pretkliničku farmakologiju?
- Čak i vodeći Claude Opus 4.8 postiže samo 59,3% uspješnosti u TxBench-PP testu, što znači da gotovo svaki drugi odgovor može biti netočan — a u razvoju lijekova takva stopa greške nije prihvatljiva za neovisnu primjenu.
- Što mjeri TxBench-PP benchmark i po čemu se razlikuje od dosadašnjih medicinskih AI testova?
- TxBench-PP ocjenjuje AI agente na 100 zadataka pretkliničke farmakologije malih molekula kroz 4.800 trajektorija, s naglaskom na višekoračno rezoniranje specifično za fazu istraživanja lijeka prije ispitivanja na ljudima.