🟢 🤝 Agenti subota, 9. svibnja 2026. · 1 min čitanja ·

arXiv:2605.06177: BioMedArena — toolkit za biomedicinske AI agente s 147 benchmarkova i 75 alata

arXiv:2605.06177 ↗

Editorial ilustracija: arhitektura biomedicinskog AI agent toolkita s benchmarcima i alatima u slojevima

BioMedArena je open-source toolkit koji razdvaja biomedicinsku evaluaciju AI agenata u šest slojeva, izlaže 147 benchmarkova i 75 alata u 9 obitelji te postiže prosjek od +15.03 postotnih bodova SOTA na osam reprezentativnih benchmarkova.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Istraživački tim s Oxforda i suradničkih institucija objavio je 7. svibnja 2026. na arXivu rad o BioMedAreni — open-source toolkitu za izgradnju i evaluaciju biomedicinskih AI agenata. Toolkit, konfiguracije i task-specific tragovi dostupni su na GitHubu.

Koji problem BioMedArena rješava?

Autori identificiraju “per-paper engineering tax”: isti modeli na istim benchmarcima daju različite rezultate u različitim radovima zbog varijacija u implementaciji i registru alata. To otežava uspoređivanje napretka i usporava razvoj polja.

Kako je toolkit strukturiran?

BioMedArena razdvaja evaluacijski pipeline u šest slojeva: učitavanje benchmarkova, izlaganje alata, odabir alata, način izvršavanja, upravljanje kontekstom i bodovanje. Sustav obuhvaća 147 biomedicinskih benchmarkova i 75 alata organiziranih u 9 funkcionalnih obitelji, sa 6 agent harnessa i 6 strategija upravljanja kontekstom — što daje 12 konkurentnih istraživačkih backbonea.

Koliki su rezultati i kako se proširuje?

BioMedArena postiže SOTA rezultate na osam reprezentativnih biomedicinskih benchmarkova s prosječnim poboljšanjem od 15.03 postotnih bodova u odnosu na prijašnje pristupe. Dodavanje novog modela, benchmarka ili alata svodi se na registraciju kratkog provider adaptera od nekoliko linija koda, što olakšava integraciju i osigurava reproducibilnost.

Česta pitanja

Što je BioMedArena?
BioMedArena je open-source toolkit za izgradnju i evaluaciju biomedicinskih AI agenata koji razdvaja evaluacijski pipeline u šest neovisnih slojeva i izlaže 147 benchmarkova te 75 alata.
Kako se dodaje novi model ili benchmark?
Toolkit svodi proces na registraciju kratkog provider adaptera od nekoliko linija koda, što značajno smanjuje inženjerski trošak po radu i osigurava reproducibilnost rezultata.
Koliki je dobitak performansi?
BioMedArena postiže rezultate najbolje razine na osam reprezentativnih biomedicinskih benchmarkova s prosječnim poboljšanjem od 15.03 postotnih bodova u odnosu na prijašnje SOTA pristupe.