KellyBench:AI代理管理Premier League赛季投注资金——所有顶级模型均亏损
KellyBench是一个用于测试序贯决策能力的新基准:AI代理使用统计数据、阵容和市场赔率,在整个2023/24赛季Premier League期间管理投注资金。所有被测试的顶级模型均亏损,Claude Opus 4.6在专家策略复杂性评分中获得了26.5%。
什么是KellyBench,它如何运作?
KellyBench是一个新的研究基准,用于测试AI代理在不稳定条件下做出长期财务决策的能力。代理模拟在英国Premier League 2023/24整个赛季中担任投注者的角色——获取详细的历史统计数据、球队阵容和市场投注赔率,任务是通过数百次连续决策实现资金最大化。
与测量单个回答准确性的标准基准不同,KellyBench测试序贯决策——风险管理中的每一个错误都会产生累积的财务后果。
结果说明了什么?
结果明确无误:所有被测试的顶级模型均平均亏损。没有任何模型达到零回报,即使是最强的模型也以平均**-8%**的回报收场。多个模型在某些试验中经历了完全破产——损失了全部资金。
Claude Opus 4.6在特别的专家评分指标中获得了26.5%,该指标评估策略复杂性——这是一个独立的衡量标准,不反映盈利性,而是衡量代理的方法与单纯赌博有多大区别。
这对AI模型开发为何重要?
体育博彩不仅仅是预测赢家——它需要理解概率理论、在连续亏损中管理风险,以及根据变化的市场条件调整策略。KellyBench揭示了当前语言模型,无论其一般能力如何,在长期财务推理方面存在显著弱点——这一能力对于许多现实商业应用同样至关重要。
常见问题
- KellyBench测量什么,与标准AI基准有何不同?
- KellyBench测试在不稳定市场条件下的长期序贯决策——不是单次回答,而是在数百次连续决策中管理风险的能力,每次决策都有财务后果。
- 最佳模型的结果如何?
- 没有模型能够盈利——即使是最强的模型也实现了平均-8%的回报,多个模型在某些试验中经历了完全破产。
- Claude的26.5%专家评分意味着什么?
- 专家评分通过将代理的行动与有经验的投注者的行动进行比较来评估策略复杂性——26.5%意味着Claude Opus 4.6对资金管理原则有一定程度的理解,但远低于有能力的人类水平。
本文由人工智能基于一手来源生成。