TxBench-PP: AI agenti i razvoj lijekova

TxBench-PP je benchmark koji testira AI agente u pretkliničkoj farmakologiji malih molekula kroz 4.800 trajektorija i 11 modela. Claude Opus 4.8 postiže 59,3% uspješnosti i vodi ispred GPT-5.5 s 55,3%, no nijedan model ne dostiže razinu pouzdanu za medicinsku primjenu.

Novi standard za testiranje AI u razvoju lijekova

Pretklinička farmakologija označava fazu istraživanja lijeka koja prethodi ispitivanjima na ljudima — u njoj se istražuju sigurnost, toksičnost i mehanizam djelovanja potencijalnih terapeutskih molekula. Upravo tu fazu cilja TxBench-PP, benchmark predstavljen u arXiv:2606.19245, koji sustavno mjeri koliko daleko AI agenti mogu stići u ovom zahtjevnom području. Skup od 100 evaluacijskih zadataka i 4.800 trajektorija — redoslijeda koraka koje agent poduzima — čini ga jednim od najopsežnijih testova ove vrste.

Claude Opus 4.8 vodi, ali jaz do pouzdanosti ostaje velik

Rezultati za 11 testiranih modela pokazuju jasan poredak, ali i zajednički problem. Claude Opus 4.8 postiže 59,3% uspješnosti (178 od 300 pokušaja; 95% CI 51,1–67,6%), što ga čini najboljim modelom u ovom skupu. GPT-5.5 slijedi s 55,3%. Razlika od gotovo četiri postotna boda može izgledati skromno, ali u kontekstu farmaceutskih istraživanja znači manji broj skupih eksperimentalnih promašaja. Ključni zaključak istraživača ipak ostaje isti za oba modela: nijedan nije pouzdan za samostalnu primjenu u istraživačkim protokolima.

Više od polovice grešaka ne smije biti standard

Zašto 59% nije dovoljno? U laboratorijskom okruženju gdje svaki pogrešan smjer istraživanja može koštati tjedne rada i stotine tisuća eura, model koji griješi u gotovo svakom drugom zadatku nije zamjena za stručnog istraživača — tek asistencijski alat koji zahtijeva strogu provjeru. Autori naglašavaju da TxBench-PP nije dizajniran kako bi modele prikazao u lošem svjetlu, nego kako bi identificirao konkretne slabosti: agenti posebno loše prolaze na zadacima koji zahtijevaju integraciju farmakokinetičkih podataka s toksikološkim profilima.

Benchmark kao mapa za buduće poboljšanje

TxBench-PP otvara put strukturiranom poboljšanju AI alata za drug discovery. Farmaceutske kompanije poput Exscientia, Recursion Pharmaceuticals i Insilico Medicine već integriraju AI u rane faze istraživanja, ali dosad bez standardiziranog mjerila. Ovaj benchmark može postati referentna točka za procjenu novih modela — i motivacija za specijalizirana fino-ugađanja koja bi mogla premostiti jaz između trenutnih 59% i razine nužne za sigurnu kliničku primjenu.

Česta pitanja

Zašto nijedan AI model nije pouzdan za pretkliničku farmakologiju?

Čak i vodeći Claude Opus 4.8 postiže samo 59,3% uspješnosti u TxBench-PP testu, što znači da gotovo svaki drugi odgovor može biti netočan — a u razvoju lijekova takva stopa greške nije prihvatljiva za neovisnu primjenu.

Što mjeri TxBench-PP benchmark i po čemu se razlikuje od dosadašnjih medicinskih AI testova?

TxBench-PP ocjenjuje AI agente na 100 zadataka pretkliničke farmakologije malih molekula kroz 4.800 trajektorija, s naglaskom na višekoračno rezoniranje specifično za fazu istraživanja lijeka prije ispitivanja na ljudima.

arXiv:2606.19245: TxBench-PP — AI agenti u potrazi za novim lijekovima

Novi standard za testiranje AI u razvoju lijekova

Claude Opus 4.8 vodi, ali jaz do pouzdanosti ostaje velik

Više od polovice grešaka ne smije biti standard

Benchmark kao mapa za buduće poboljšanje

Česta pitanja

Izvori

Povezane vijesti