Bestärkendes Lernen (Reinforcement Learning)

Bestärkendes Lernen (Reinforcement Learning, RL) ist ein Paradigma des maschinellen Lernens, bei dem ein Agent durch Versuch und Irrtum in einer Umgebung lernt, Entscheidungen zu treffen. In jedem Schritt beobachtet der Agent einen Zustand, führt eine Aktion aus und erhält ein skalares Belohnungssignal; das Ziel ist eine Strategie (Policy), die die kumulierte Belohnung über die Zeit maximiert. Anders als beim überwachten Lernen gibt es keine „richtige Antwort” — das Modell lernt allein aus den Konsequenzen seiner eigenen Aktionen.

RL trieb jahrzehntelang Robotik und Spiele an (AlphaGo, Atari), ist heute aber entscheidend für große Sprachmodelle. Im Rahmen von RLHF verwandelt RL ein Basismodell in einen hilfreichen Assistenten, indem es gegen ein aus menschlichen Präferenzen gelerntes Reward-Modell optimiert.

Seit 2024-2026 ist RL zum Motor der Reasoning-Modelle geworden: Trainiert auf verifizierbaren Aufgaben (Mathematik, Code) mit Belohnung für die korrekte Endantwort, entwickeln Systeme wie OpenAI o1/o3 und DeepSeek-R1 eine lange Gedankenkette ohne menschlich annotierte Beispiele. Zentrale Herausforderungen bleiben Reward Hacking und Trainingsinstabilität.

Quellen

Siehe auch