KellyBench: KI-Agenten verwalten Wett-Bankroll durch die Premier-League-Saison — alle führenden Modelle verloren Geld
KellyBench ist ein neuer Benchmark zum Testen sequenzieller Entscheidungsfindung: KI-Agenten verwalten eine Wett-Bankroll durch die gesamte Premier-League-Saison 2023/24 und nutzen Statistiken, Aufstellungen und Marktquoten. Alle getesteten führenden Modelle verloren Geld, und Claude Opus 4.6 erzielte 26,5 % auf der Experten-Rubrik für Strategiesophistikation.
Was ist KellyBench und wie funktioniert es?
KellyBench ist ein neuer Forschungs-Benchmark, der die Fähigkeit von KI-Agenten testet, langfristige Finanzentscheidungen unter volatilen Bedingungen zu treffen. Agenten simulieren die Rolle eines Wetters durch die gesamte englische Premier-League-Saison 2023/24 — sie erhalten detaillierte historische Statistiken, Mannschaftsaufstellungen und Markt-Wettquoten, und ihre Aufgabe ist es, den Wert einer Bankroll durch Hunderte aufeinanderfolgender Entscheidungen zu maximieren.
Im Gegensatz zu Standard-Benchmarks, die die Genauigkeit einzelner Antworten messen, testet KellyBench sequenzielle Entscheidungsfindung — jeder Fehler im Risikomanagement hat kumulative finanzielle Konsequenzen.
Was zeigten die Ergebnisse?
Die Ergebnisse sind eindeutig: Alle getesteten führenden Modelle verloren im Durchschnitt Geld. Keines erreichte eine Nullrendite, und selbst das stärkste Modell endete mit einer durchschnittlichen Rendite von -8 %. Mehrere Modelle erlebten in einzelnen Versuchen einen vollständigen finanziellen Ruin — sie verloren die gesamte Bankroll.
Claude Opus 4.6 erzielte 26,5 % auf einer separaten Experten-Rubrik, die Strategiesophistikation bewertet — dies ist eine eigenständige Messgröße, die nichts über den Gewinn aussagt, sondern darüber, wie weit sich der Ansatz des Agenten von naivem Wetten unterscheidet.
Warum ist das für die Entwicklung von KI-Modellen wichtig?
Sportwetten geht nicht nur ums Vorhersagen von Gewinnern — es erfordert ein Verständnis der Wahrscheinlichkeitstheorie, das Management von Risiken durch Verlustserien und die Anpassung der Strategie an sich ändernde Marktbedingungen. KellyBench zeigt, dass aktuelle Sprachmodelle, unabhängig von ihren allgemeinen Fähigkeiten, erhebliche Schwächen im langfristigen finanziellen Urteilvermögen haben — eine Fähigkeit, die auch für viele reale Geschäftsanwendungen entscheidend ist.
Häufig gestellte Fragen
- Was misst KellyBench und wie unterscheidet es sich von Standard-KI-Benchmarks?
- KellyBench testet langfristige sequenzielle Entscheidungsfindung unter volatilen Marktbedingungen — keine Einzelantworten, sondern die Fähigkeit, Risiken über Hunderte aufeinanderfolgender Entscheidungen mit finanziellen Konsequenzen zu managen.
- Was war das Ergebnis des besten Modells?
- Kein Modell war profitabel — selbst das stärkste erzielte eine durchschnittliche Rendite von -8 %, und mehrere Modelle erlebten in einzelnen Versuchen einen vollständigen finanziellen Ruin.
- Was bedeutet Claudes Ergebnis von 26,5 % auf der Experten-Rubrik?
- Die Experten-Rubrik bewertet die Strategiesophistikation, indem sie die Züge des Agenten mit dem vergleicht, was ein erfahrener Wetter tun würde — 26,5 % bedeutet, dass Claude Opus 4.6 ein teilweises Verständnis der Bankroll-Management-Prinzipien zeigt, aber weit unter dem Niveau eines kompetenten Menschen liegt.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
GitHub stellt GPT-5.2 und GPT-5.2-Codex in Copilot am 1. Juni 2026 ein — Migration auf GPT-5.5 und GPT-5.3-Codex
NIST CAISI-Evaluierung von DeepSeek V4 Pro: 8 Monate Rückstand gegenüber US-Frontier-Modellen in 9 Benchmarks und 5 Domänen
Anthropic schließt 1M-Kontext-Beta für Sonnet 4.5 und Sonnet 4 — Migration auf 4.6 erforderlich