arXiv:2605.06177: BioMedArena — toolkit za biomedicinske AI agente s 147 benchmarkova i 75 alata
BioMedArena je open-source toolkit koji razdvaja biomedicinsku evaluaciju AI agenata u šest slojeva, izlaže 147 benchmarkova i 75 alata u 9 obitelji te postiže prosjek od +15.03 postotnih bodova SOTA na osam reprezentativnih benchmarkova.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživački tim s Oxforda i suradničkih institucija objavio je 7. svibnja 2026. na arXivu rad o BioMedAreni — open-source toolkitu za izgradnju i evaluaciju biomedicinskih AI agenata. Toolkit, konfiguracije i task-specific tragovi dostupni su na GitHubu.
Koji problem BioMedArena rješava?
Autori identificiraju “per-paper engineering tax”: isti modeli na istim benchmarcima daju različite rezultate u različitim radovima zbog varijacija u implementaciji i registru alata. To otežava uspoređivanje napretka i usporava razvoj polja.
Kako je toolkit strukturiran?
BioMedArena razdvaja evaluacijski pipeline u šest slojeva: učitavanje benchmarkova, izlaganje alata, odabir alata, način izvršavanja, upravljanje kontekstom i bodovanje. Sustav obuhvaća 147 biomedicinskih benchmarkova i 75 alata organiziranih u 9 funkcionalnih obitelji, sa 6 agent harnessa i 6 strategija upravljanja kontekstom — što daje 12 konkurentnih istraživačkih backbonea.
Koliki su rezultati i kako se proširuje?
BioMedArena postiže SOTA rezultate na osam reprezentativnih biomedicinskih benchmarkova s prosječnim poboljšanjem od 15.03 postotnih bodova u odnosu na prijašnje pristupe. Dodavanje novog modela, benchmarka ili alata svodi se na registraciju kratkog provider adaptera od nekoliko linija koda, što olakšava integraciju i osigurava reproducibilnost.
Česta pitanja
- Što je BioMedArena?
- BioMedArena je open-source toolkit za izgradnju i evaluaciju biomedicinskih AI agenata koji razdvaja evaluacijski pipeline u šest neovisnih slojeva i izlaže 147 benchmarkova te 75 alata.
- Kako se dodaje novi model ili benchmark?
- Toolkit svodi proces na registraciju kratkog provider adaptera od nekoliko linija koda, što značajno smanjuje inženjerski trošak po radu i osigurava reproducibilnost rezultata.
- Koliki je dobitak performansi?
- BioMedArena postiže rezultate najbolje razine na osam reprezentativnih biomedicinskih benchmarkova s prosječnim poboljšanjem od 15.03 postotnih bodova u odnosu na prijašnje SOTA pristupe.
Povezane vijesti
arXiv:2605.06623: MASPO — automatska optimizacija promptova za multi-agent LLM sustave, ICML 2026
Google DeepMind: AlphaEvolve dostupan kroz Google Cloud, prvi industrijski rezultati
arXiv:2605.05191: LongSeeker s Context-ReAct okvirom postiže 61,5% na BrowseCompu