KellyBench:AIエージェントがPremier Leagueシーズンを通じて賭けの資金を管理——主要モデルはすべて損失
KellyBenchは逐次意思決定をテストする新しいベンチマークです:AIエージェントが統計、出場選手、市場オッズを使用して、2023/24シーズン全体を通じてPremier Leagueの賭け資金を管理します。テストされたすべての主要モデルが損失を出し、Claude Opus 4.6は専門家による戦略洗練度ルーブリックで26.5%を達成しました。
KellyBenchとは何か、どのように機能するのか?
KellyBenchは、不安定な状況下でAIエージェントが長期的な財務判断を下す能力をテストする新しい研究ベンチマークです。エージェントはイングランドPremier League 2023/24シーズン全体を通じて賭け師の役割をシミュレートします——詳細な過去の統計、チームの出場選手、市場の賭けオッズが与えられ、何百もの連続した意思決定を通じて資金を最大化することが求められます。
個々の回答の正確さを測定する標準ベンチマークとは異なり、KellyBenchは逐次意思決定をテストします——リスク管理における各ミスが累積的な財務上の結果をもたらします。
結果は何を示しましたか?
結果は明確です:テストされたすべての主要モデルが平均的に損失を出しました。ゼロリターンを達成したモデルはなく、最も優れたモデルでさえ平均**-8%**のリターンで終わりました。複数のモデルが一部の試行で完全に破綻——全資金を失いました。
Claude Opus 4.6は、戦略の洗練度を評価する専門家ルーブリックで**26.5%**を達成しました——これは利益とは別の指標で、エージェントのアプローチが単純な賭けとどれだけ異なるかを測定します。
なぜこれがAIモデル開発に重要なのか?
スポーツ賭博は勝者を予測するだけではありません——確率理論の理解、連続する損失を通じたリスク管理、変化する市場状況への戦略適応が必要です。KellyBenchは、現在の言語モデルが全般的な能力に関係なく、長期的な財務推論——多くの実際のビジネスアプリケーションにとっても重要な能力——において著しい弱点を持っていることを明らかにしました。
よくある質問
- KellyBenchは何を測定し、標準的なAIベンチマークとどう違いますか?
- KellyBenchは不安定な市場状況での長期的な逐次意思決定をテストします——1回の回答の正確さではなく、財務上の結果を伴う何百もの連続した意思決定を通じたリスク管理能力です。
- 最も優れたモデルの結果はどうでしたか?
- 利益を出したモデルはありませんでした——最も優れたモデルでさえ平均-8%のリターンを達成し、複数のモデルが一部の試行で完全に破綻しました。
- Claudeの専門家ルーブリックで26.5%という結果は何を意味しますか?
- 専門家ルーブリックは、エージェントの行動を経験豊富な賭け師の行動と比較して戦略の洗練度を評価します——26.5%はClaude Opus 4.6が資金管理の原則をある程度理解していることを示しますが、有能な人間の水準には遠く及びません。
この記事はAIにより一次情報源から生成されました。