KellyBench: KI und Sportwetten — alle Modelle im Minus

KellyBench ist ein neuer Benchmark zum Testen sequenzieller Entscheidungsfindung: KI-Agenten verwalten eine Wett-Bankroll durch die gesamte Premier-League-Saison 2023/24 und nutzen Statistiken, Aufstellungen und Marktquoten. Alle getesteten führenden Modelle verloren Geld, und Claude Opus 4.6 erzielte 26,5 % auf der Experten-Rubrik für Strategiesophistikation.

Was ist KellyBench und wie funktioniert es?

KellyBench ist ein neuer Forschungs-Benchmark, der die Fähigkeit von KI-Agenten testet, langfristige Finanzentscheidungen unter volatilen Bedingungen zu treffen. Agenten simulieren die Rolle eines Wetters durch die gesamte englische Premier-League-Saison 2023/24 — sie erhalten detaillierte historische Statistiken, Mannschaftsaufstellungen und Markt-Wettquoten, und ihre Aufgabe ist es, den Wert einer Bankroll durch Hunderte aufeinanderfolgender Entscheidungen zu maximieren.

Im Gegensatz zu Standard-Benchmarks, die die Genauigkeit einzelner Antworten messen, testet KellyBench sequenzielle Entscheidungsfindung — jeder Fehler im Risikomanagement hat kumulative finanzielle Konsequenzen.

Was zeigten die Ergebnisse?

Die Ergebnisse sind eindeutig: Alle getesteten führenden Modelle verloren im Durchschnitt Geld. Keines erreichte eine Nullrendite, und selbst das stärkste Modell endete mit einer durchschnittlichen Rendite von -8 %. Mehrere Modelle erlebten in einzelnen Versuchen einen vollständigen finanziellen Ruin — sie verloren die gesamte Bankroll.

Claude Opus 4.6 erzielte 26,5 % auf einer separaten Experten-Rubrik, die Strategiesophistikation bewertet — dies ist eine eigenständige Messgröße, die nichts über den Gewinn aussagt, sondern darüber, wie weit sich der Ansatz des Agenten von naivem Wetten unterscheidet.

Warum ist das für die Entwicklung von KI-Modellen wichtig?

Sportwetten geht nicht nur ums Vorhersagen von Gewinnern — es erfordert ein Verständnis der Wahrscheinlichkeitstheorie, das Management von Risiken durch Verlustserien und die Anpassung der Strategie an sich ändernde Marktbedingungen. KellyBench zeigt, dass aktuelle Sprachmodelle, unabhängig von ihren allgemeinen Fähigkeiten, erhebliche Schwächen im langfristigen finanziellen Urteilvermögen haben — eine Fähigkeit, die auch für viele reale Geschäftsanwendungen entscheidend ist.

Häufig gestellte Fragen

Was misst KellyBench und wie unterscheidet es sich von Standard-KI-Benchmarks?

KellyBench testet langfristige sequenzielle Entscheidungsfindung unter volatilen Marktbedingungen — keine Einzelantworten, sondern die Fähigkeit, Risiken über Hunderte aufeinanderfolgender Entscheidungen mit finanziellen Konsequenzen zu managen.

Was war das Ergebnis des besten Modells?

Kein Modell war profitabel — selbst das stärkste erzielte eine durchschnittliche Rendite von -8 %, und mehrere Modelle erlebten in einzelnen Versuchen einen vollständigen finanziellen Ruin.

Was bedeutet Claudes Ergebnis von 26,5 % auf der Experten-Rubrik?

Die Experten-Rubrik bewertet die Strategiesophistikation, indem sie die Züge des Agenten mit dem vergleicht, was ein erfahrener Wetter tun würde — 26,5 % bedeutet, dass Claude Opus 4.6 ein teilweises Verständnis der Bankroll-Management-Prinzipien zeigt, aber weit unter dem Niveau eines kompetenten Menschen liegt.

KellyBench: KI-Agenten verwalten Wett-Bankroll durch die Premier-League-Saison — alle führenden Modelle verloren Geld

Was ist KellyBench und wie funktioniert es?

Was zeigten die Ergebnisse?

Warum ist das für die Entwicklung von KI-Modellen wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten