Agenten

Retrieval-Augmented Generation (RAG)

Retrieval-System plus LLM: relevante Dokumente werden vor der Antwort aus einer Wissensquelle abgerufen und als Kontext eingefügt, um Ausgaben zu verankern.

Retrieval-Augmented Generation (RAG) ist das dominante Muster, um präzise, aktuelle Antworten von einem Großen Sprachmodell zu erhalten. Anstatt sich ausschließlich auf die eingefrorenen Trainingsdaten des LLM zu verlassen, ruft ein RAG-System zunächst relevante Abschnitte aus einer externen Wissensbasis ab — interne Dokumente, Webseiten, Kundendaten — und fügt sie als Kontext in den Prompt ein, auf den sich das Modell bei seiner Antwort stützt.

Die klassische Pipeline-Architektur:

  1. Indizierung: Dokumente werden in Abschnitte aufgeteilt, in Embeddings umgewandelt und in einer Vektordatenbank gespeichert.
  2. Abfrage: Die Nutzerfrage wird eingebettet; die Datenbank gibt die top-k semantisch ähnlichsten Abschnitte zurück.
  3. Generierung: Die abgerufenen Abschnitte werden mit der Anweisung „Antworte ausschließlich anhand des untenstehenden Kontexts.” in den LLM-Prompt eingefügt.

RAG mildert Halluzinationen, hält Inhalte ohne erneutes Training aktuell und liefert Quellenangaben, die Nutzerinnen und Nutzer überprüfen können. Es ist die Grundlage hinter Perplexity, dem ChatGPT-Browsing-Modus, Enterprise-Wissensassistenten und den meisten produktiven LLM-Anwendungen.

2025 brachte weitere Varianten: Hybrid Search (Vektor + Stichwort), Reranker (Cohere, Jina), GraphRAG (Microsoft) für komplexe Relationen und Agentic RAG, bei dem ein Agent mehrstufige Suchanfragen plant. Die Grundprinzipien bleiben dieselben: Den richtigen Kontext zum Modell bringen, und fundierte Antworten folgen.

Quellen

Siehe auch