arXiv:2605.06177: BioMedArena生物医学代理评估工具包

BioMedArena是一个开源工具包，将生物医学AI代理评估分解为六个层级，提供9个工具系列的147个基准和75个工具，在8个代表性基准上实现平均+15.03个百分点的SOTA提升。

牛津大学及合作机构的研究团队于2026年5月7日在arXiv上发表了BioMedArena论文——这是一个用于构建和评估生物医学AI代理的开源工具包。工具包、配置和任务特定轨迹均可在GitHub上获取。

BioMedArena解决了什么问题？

作者识别出「逐论文工程税」问题：由于实现方式和工具注册表的差异，同一模型在同一基准上在不同论文中会产生不同结果。这使得进度比较困难，并减缓了该领域的发展速度。

BioMedArena将评估流水线分为六个层级：基准加载、工具暴露、工具选择、执行模式、上下文管理和评分。系统涵盖147个生物医学基准和9个功能系列中的75个工具，配备6个代理harness和6种上下文管理策略——形成12个竞争性研究骨干。

BioMedArena在八个代表性生物医学基准上取得SOTA结果，相比以往方法平均提升15.03个百分点。添加新模型、基准或工具只需注册几行代码的简短提供者适配器，简化集成并确保可复现性。

常见问题

BioMedArena是什么？

BioMedArena是一个用于构建和评估生物医学AI代理的开源工具包，将评估流水线分解为六个独立层级，提供147个基准和75个工具。

如何添加新的模型或基准？

工具包将该过程简化为注册一个几行代码的简短提供者适配器，大幅降低每项研究的工程成本并确保结果可复现。

性能提升有多大？

BioMedArena在八个代表性生物医学基准上取得最佳水平结果，相比以往SOTA方法平均提升15.03个百分点。