IG-Search: Nagrada koja mjeri dobitak informacije poboljšava search-augmented reasoning uz 6,4 % overheada

IG-Search je novi pristup treningu AI modela za search-augmented reasoning koji koristi Information Gain (dobitak informacije) kao nagradu na razini koraka. Signal se derivira iz vlastitih vjerojatnosti generiranja modela bez vanjskih anotacija, a Qwen2.5-3B s ovom metodom postiže prosječni EM score 0,430 na 7 QA benchmarkova — 1,6 bodova iznad MR-Search i 0,9 bodova iznad GiGPO uz računski overhead svega 6,4 %.

Što je IG-Search?

IG-Search je nova metoda treniranja AI modela koji razmišljaju uz pomoć pretraživanja — paradigma poznata kao search-augmented reasoning (razsuđivanje uz pretraživanje). Kod ovakvih modela, tijekom rješavanja problema LLM može pozvati search poziv za dohvaćanje dokumenata koji bi mu mogli pomoći odgovoriti na pitanje.

Ključna inovacija je nagrada: umjesto standardne finalne nagrade (točan ili netočan odgovor nakon svih koraka), IG-Search koristi Information Gain (dobitak informacije) kao signal na razini pojedinog koraka. Jednostavno rečeno, metoda mjeri koliko dohvaćeni dokumenti povećavaju pouzdanost modela u ispravan odgovor — ako dokument čini model sigurnijim, to je pozitivna nagrada; ako smanjuje sigurnost, negativna.

Što znači “bez vanjskih anotacija”?

Tradicionalne metode za trening search agenata trebaju anotirane primjere: ljudski oznaditelji označavaju koji su search pozivi bili korisni. To je skupo i teško skalira.

IG-Search derivira signal iz vlastitih vjerojatnosti generiranja modela — provjerava kako se distribucija vjerojatnosti za točan odgovor mijenja prije i poslije dohvaćanja dokumenata. Ako nakon dohvaćanja model daje veću vjerojatnost točnom odgovoru, to znači da je dohvat donio korisnu informaciju, bez potrebe za ikakvim ljudskim markiranjem.

Koliko je efikasnija?

Na Qwen2.5-3B modelu, IG-Search postiže:

Prosječni Exact Match (EM) score: 0,430 na 7 QA benchmarkova
+1,6 bodova iznad MR-Search (prethodni SOTA)
+0,9 bodova iznad GiGPO metode
Računski overhead: svega ~6,4 %

Zadnji broj je značajan — mnoge step-level reward metode u praksi dodaju 20-50 % na trening trošak, što ih čini nepraktičnim. IG-Search s 6,4 % overheadom zadržava većinu treninškog proračuna za sam model, a ne za kompleksnu reward proceduru.

Što znači za manje modele?

Qwen2.5-3B je model od 3 milijarde parametara — sasvim na donjoj granici praktičnih search agenata. Činjenica da IG-Search pokazuje rezultate na toj razini sugerira da bi ista metoda mogla dati značajna poboljšanja i na 7B, 14B i većim skalama, bez potrebe za skupim anotacijama.

Autori (devet istraživača predvođenih Liangom) ne spominju datum release-a koda, ali kombinacija niskog overheada, robusnih rezultata preko 7 benchmarkova i eliminacija potrebe za ljudskim anotacijama čini metodu privlačnom za tima koji grade vlastite search-augmented LLM-ove.

Česta pitanja

Što je search-augmented reasoning?

Paradigma u kojoj LLM tijekom razsuđivanja poziva pretraživanje (web ili baze) kako bi dohvatio relevantne dokumente i bolje odgovorio na složena pitanja.

Zašto step-level nagrada umjesto finalne?

Jer finalna nagrada (točan ili netočan odgovor) daje slab trening signal — model ne zna koji je konkretan search korak bio koristan. Step-level nagrada vrednuje svaki pojedinačni poziv pretraživanja.