Inferenz (Modell-Ausführung)

Inferenz ist die Phase im Lebenszyklus eines Modells, in der ein bereits trainiertes Modell neue Eingaben empfängt und Ausgaben erzeugt — Vorhersagen, Klassifikationen oder Text. Das Gegenstück ist das Training, das einmal (oder in wenigen Iterationen) stattfindet und über Wochen oder Monate hinweg deutlich größere Hardware nutzt.

Für ein großes Sprachmodell bedeutet Inferenz, Token für Token zu generieren, wobei jedes neue Token einen Durchgang durch alle Schichten des Netzes erfordert. Wichtige Metriken:

Time to First Token (TTFT) — wie schnell der Nutzer das erste Zeichen der Antwort sieht
Throughput (Tokens/s) — wie viele Nutzer und Anfragen ein Server gleichzeitig bedienen kann
Kosten pro Million Tokens — der Hauptkostentreiber des Geschäftsmodells von API-Anbietern

Inferenz dominiert über die Lebensdauer des Modells die Gesamtbetriebskosten — wenn das Training einmalig Millionen Dollar kostet, kostet die Inferenz in der Produktion eines erfolgreichen Produkts ebenso viel pro Monat. Deshalb ist die Optimierung der Inferenz ein aktives Forschungsfeld: Quantisierung (FP8, INT4), Speculative Decoding, Prefix Caching, Batching, KV-Cache-Reuse.

Der Hardware-Stack ist vielfältig: NVIDIA H100- und B200-GPUs dominieren in der Cloud, doch KI-Beschleuniger wie Google TPU, AWS Trainium/Inferentia und Groq LPU gewinnen aufgrund eines besseren Preis-Leistungs-Verhältnisses an Boden. Lokale Inferenz (Apple Silicon, NPUs in Laptops, Ollama) verändert die Ökonomie zusätzlich.

Quellen

Siehe auch