Retrieval-Augmented Generation (RAG)

Retrieval-Augmented Generation (RAG) je dominantan obrazac za dobivanje točnih, aktualnih odgovora od velikog jezičnog modela. Umjesto da se oslanja isključivo na zamrznute podatke iz treniranja, RAG sustav prvo dohvaća relevantne dijelove iz vanjske baze znanja — internih dokumenata, web stranica, baze klijenata — i ubacuje ih u prompt kao kontekst za model.

Klasična cjevovod-arhitektura:

Indeksiranje: dokumenti se režu u dijelove, pretvaraju u embedding-e i pohranjuju u vektorsku bazu.
Pretraživanje: korisničko pitanje se embeddira; baza vraća top-k semantički sličnih dijelova.
Generiranje: dohvaćeni dijelovi ubacuju se u prompt s uputom “Odgovori koristeći samo kontekst ispod.”

RAG ublažava halucinacije, drži sadržaj svježim bez ponovnog treniranja i daje citate koje korisnik može provjeriti. To je motor iza Perplexity-ja, ChatGPT browsing moda, enterprise knowledge asistenata i većine produkcijskih LLM aplikacija.

godina donijela je varijante: hybrid search (vektorski + ključne riječi), rerankere (Cohere, Jina), GraphRAG (Microsoft) za složene relacije, i Agentic RAG gdje agent planira višekoračno pretraživanje. Temelji ostaju isti: dovedi pravi kontekst do modela i utemeljen odgovor slijedi.

Izvori

Vidi također