arXiv:2605.06177: BioMedArena——拥有147个基准和75个工具的生物医学AI代理工具包
BioMedArena是一个开源工具包,将生物医学AI代理评估分解为六个层级,提供9个工具系列的147个基准和75个工具,在8个代表性基准上实现平均+15.03个百分点的SOTA提升。
🤖
本文由人工智能基于一手来源生成。
牛津大学及合作机构的研究团队于2026年5月7日在arXiv上发表了BioMedArena论文——这是一个用于构建和评估生物医学AI代理的开源工具包。工具包、配置和任务特定轨迹均可在GitHub上获取。
BioMedArena解决了什么问题?
作者识别出「逐论文工程税」问题:由于实现方式和工具注册表的差异,同一模型在同一基准上在不同论文中会产生不同结果。这使得进度比较困难,并减缓了该领域的发展速度。
工具包如何组织?
BioMedArena将评估流水线分为六个层级:基准加载、工具暴露、工具选择、执行模式、上下文管理和评分。系统涵盖147个生物医学基准和9个功能系列中的75个工具,配备6个代理harness和6种上下文管理策略——形成12个竞争性研究骨干。
结果如何,如何扩展?
BioMedArena在八个代表性生物医学基准上取得SOTA结果,相比以往方法平均提升15.03个百分点。添加新模型、基准或工具只需注册几行代码的简短提供者适配器,简化集成并确保可复现性。
常见问题
- BioMedArena是什么?
- BioMedArena是一个用于构建和评估生物医学AI代理的开源工具包,将评估流水线分解为六个独立层级,提供147个基准和75个工具。
- 如何添加新的模型或基准?
- 工具包将该过程简化为注册一个几行代码的简短提供者适配器,大幅降低每项研究的工程成本并确保结果可复现。
- 性能提升有多大?
- BioMedArena在八个代表性生物医学基准上取得最佳水平结果,相比以往SOTA方法平均提升15.03个百分点。