🟢 🤝 智能体 2026年5月9日星期六 · 1 分钟阅读 ·

arXiv:2605.06177: BioMedArena——拥有147个基准和75个工具的生物医学AI代理工具包

arXiv:2605.06177 ↗

编辑插图:分层基准和工具的生物医学AI代理工具包架构

BioMedArena是一个开源工具包,将生物医学AI代理评估分解为六个层级,提供9个工具系列的147个基准和75个工具,在8个代表性基准上实现平均+15.03个百分点的SOTA提升。

🤖

本文由人工智能基于一手来源生成。

牛津大学及合作机构的研究团队于2026年5月7日在arXiv上发表了BioMedArena论文——这是一个用于构建和评估生物医学AI代理的开源工具包。工具包、配置和任务特定轨迹均可在GitHub上获取。

BioMedArena解决了什么问题?

作者识别出「逐论文工程税」问题:由于实现方式和工具注册表的差异,同一模型在同一基准上在不同论文中会产生不同结果。这使得进度比较困难,并减缓了该领域的发展速度。

工具包如何组织?

BioMedArena将评估流水线分为六个层级:基准加载、工具暴露、工具选择、执行模式、上下文管理和评分。系统涵盖147个生物医学基准和9个功能系列中的75个工具,配备6个代理harness和6种上下文管理策略——形成12个竞争性研究骨干。

结果如何,如何扩展?

BioMedArena在八个代表性生物医学基准上取得SOTA结果,相比以往方法平均提升15.03个百分点。添加新模型、基准或工具只需注册几行代码的简短提供者适配器,简化集成并确保可复现性。

常见问题

BioMedArena是什么?
BioMedArena是一个用于构建和评估生物医学AI代理的开源工具包,将评估流水线分解为六个独立层级,提供147个基准和75个工具。
如何添加新的模型或基准?
工具包将该过程简化为注册一个几行代码的简短提供者适配器,大幅降低每项研究的工程成本并确保结果可复现。
性能提升有多大?
BioMedArena在八个代表性生物医学基准上取得最佳水平结果,相比以往SOTA方法平均提升15.03个百分点。