KellyBench: AI와 스포츠 베팅——모든 모델 손실

KellyBench는 순차적 의사결정을 테스트하는 새로운 기준입니다: AI 에이전트가 통계, 선발 명단 및 시장 배당률을 활용하여 2023/24 시즌 전체 Premier League 동안 베팅 자금을 관리합니다. 테스트된 모든 주요 모델이 손실을 기록했으며, Claude Opus 4.6은 전문가 전략 정교도 루브릭에서 26.5%를 달성했습니다.

KellyBench란 무엇이며 어떻게 작동합니까?

KellyBench는 불안정한 조건에서 AI 에이전트가 장기적인 재정 결정을 내리는 능력을 테스트하는 새로운 연구 기준입니다. 에이전트는 잉글랜드 Premier League 2023/24 시즌 전체에 걸쳐 베터 역할을 시뮬레이션합니다——상세한 역사 통계, 팀 선발 명단, 시장 베팅 배당률을 제공받고, 수백 번의 연속적인 의사결정을 통해 자금을 극대화하는 것이 임무입니다.

개별 응답의 정확성을 측정하는 표준 벤치마크와 달리, KellyBench는 순차적 의사결정을 테스트합니다——위험 관리에서의 각 실수는 누적적인 재정적 결과를 낳습니다.

결과는 무엇을 보여줬습니까?

결과는 명확합니다: 테스트된 모든 주요 모델이 평균적으로 손실을 기록했습니다. 제로 수익률을 달성한 모델은 없었으며, 가장 강력한 모델도 평균 **-8%**의 수익률로 마쳤습니다. 여러 모델이 일부 시험에서 완전한 파산을 경험했습니다——전체 자금을 잃었습니다.

Claude Opus 4.6은 전략 정교도를 평가하는 특별 전문가 루브릭에서 **26.5%**를 달성했습니다——이는 수익성과는 별개의 지표로, 에이전트의 접근 방식이 단순한 베팅과 얼마나 다른지를 측정합니다.

이것이 AI 모델 개발에 왜 중요합니까?

스포츠 베팅은 단순히 승자를 예측하는 것이 아닙니다——확률 이론의 이해, 연속적인 손실을 통한 위험 관리, 변화하는 시장 조건에 따른 전략 조정이 필요합니다. KellyBench는 현재의 언어 모델이 전반적인 능력에 관계없이 장기적 재정 추론——많은 실제 비즈니스 응용에서도 핵심적인 능력——에서 상당한 약점을 가지고 있음을 보여줍니다.

자주 묻는 질문

KellyBench는 무엇을 측정하며 표준 AI 벤치마크와 어떻게 다릅니까?

KellyBench는 불안정한 시장 조건에서의 장기적 순차 의사결정을 테스트합니다——단일 응답의 정확성이 아닌, 재정적 결과를 동반한 수백 번의 연속적인 의사결정을 통한 위험 관리 능력입니다.

최고 모델의 결과는 어떠했습니까?

수익을 낸 모델은 없었습니다——가장 강력한 모델도 평균 -8%의 수익률을 달성했으며, 여러 모델이 일부 시험에서 완전한 파산을 경험했습니다.

Claude의 전문가 루브릭 26.5% 결과는 무엇을 의미합니까?

전문가 루브릭은 에이전트의 행동을 경험 있는 베터의 행동과 비교하여 전략 정교도를 평가합니다——26.5%는 Claude Opus 4.6이 자금 관리 원칙에 대한 부분적인 이해를 보여주지만, 유능한 인간 수준에는 훨씬 못 미친다는 것을 의미합니다.

KellyBench: AI 에이전트가 Premier League 시즌 내내 베팅 자금을 관리——모든 주요 모델이 손실

KellyBench란 무엇이며 어떻게 작동합니까?

결과는 무엇을 보여줬습니까?

이것이 AI 모델 개발에 왜 중요합니까?

자주 묻는 질문

출처

관련 뉴스