Reasoning-Modell

Ein Reasoning-Modell ist ein Großes Sprachmodell, das — in der Regel durch Reinforcement Learning auf verifizierbaren Problemen — trainiert wurde, verlängerte Rechenzeit auf das Nachdenken vor der Antwort zu verwenden. Intern erzeugt das Modell eine lange Kette von Zwischenschritten (manchmal als „Thinking Tokens” bezeichnet), die oft vor dem Nutzer verborgen bleiben, und gibt dann eine prägnante Endantwort aus.

Das Paradigma wurde mit OpenAI o1 (September 2024) zum Mainstream, gefolgt von o3, DeepSeek R1, Anthropic Claude mit Extended Thinking, Google Gemini Thinking und Qwen QwQ. Reasoning-Modelle glänzen bei Mathematik, kompetitivem Programmieren, wissenschaftlichem Schlussfolgern und mehrstufiger Planung — Domänen, in denen Verifikation unkompliziert ist und das Modell für korrekte Endantworten belohnt werden kann, unabhängig vom Lösungsweg.

Dies wird auch als Test-Time Compute Scaling bezeichnet: Statt das Modell (nur) zu vergrößern, lässt man es bei der Inferenz länger nachdenken. Empirisch verbessert das Verdoppeln der Thinking Tokens häufig die Genauigkeit bei schwierigen Problemen und eröffnet eine neue Skalierungsachse jenseits des Pre-Training-Computes.

Trade-offs:

Kosten: 5-30× mehr Output-Tokens als bei einer Standardantwort
Latenz: Sekunden bis Minuten pro Antwort
Diminishing Returns: Längeres Nachdenken erreicht irgendwann ein Plateau
Domänenselektivität: Starke Gewinne bei Logik/Mathematik/Code, geringere bei offenen Schreibaufgaben

Bis 2026 liefert jedes große Labor sowohl ein „schnelles” als auch ein „Reasoning”-Modell. Das Routing — die Wahl des richtigen Modells für eine Anfrage — ist selbst zu einem eigenen Optimierungsproblem geworden.

Quellen

Siehe auch