RL alignment transfer na 80%+ OOD benchmarka

Istraživači Google Researcha pokazali su da RL treniranje na korisnim osobinama poput istinitosti, pravednosti i korektabilnosti poboljšava performanse na više od 80% od 50+ neovisnih OOD benchmarka — uključujući domene izvan zdravlja na kojoj je model treniran.

Što je alignment transfer i zašto je važan?

Alignment transfer označava sposobnost modela da korisne osobine naučene u jednoj domeni — poput zdravlja — primijeni u potpuno drugačijim kontekstima bez dodatnog treniranja. Google Research objavio je rad “Reinforcement Learning Towards Broadly and Persistently Beneficial Models” (autori: Akshay V. Jagadeesh, Rahul K. Arora, Khaled Saab i suradnici), koji pokazuje da je taj prijenos moguć i mjerljiv u velikom opsegu.

Kako je RL treniranje provedeno?

Istraživači su konstruirali skupove podataka koji mjere četiri korisne osobine: istinitost (truthfulness), pravednost (fairness), svjesnost rizika i korektabilnost (corrigibility — sposobnost da se model popravi ili zaustavi). Treniranje je provedeno primarno u zdravstvenom, znanstvenom i obrazovnom domenu. Ključni rezultat: poboljšanja su zabilježena na više od 80% od ukupno 50+ neovisnih OOD (out-of-distribution) benchmarka — dakle, na evaluacijama izvan domene treniranja. Za razliku od klasičnog pristupa gdje se svaki slučaj primjene uslađuje posebno, ovaj model postiže generalizaciju jednim skupom treniranja.

Što donosi u praksi?

Modeli trenirani ovim pristupom pokazuju veću otpornost na adversarijalne promptove — pokušaje korisnika da ih navedu na štetne odgovore — te na harmful fine-tuning, situacije gdje napadač pokušava naknadno pretrenirani model učiniti štetnim. Istovremeno, pristup smanjuje reward hacking, pojavu u kojoj model optimizira metriku nagrade bez stvarnog učenja poželjnog ponašanja. Zdravstveni RL, konkretno, donosi „široka poboljšanja na ne-zdravstvenim evaluacijama usklađenosti” — što sugerira da domenu-specifično treniranje nije nužno silos.

Zašto je to iskorak?

Dosadašnji modeli zahtijevali su zasebno usklađivanje za svaku primjenu. Ovaj rad demonstrira da je korisno ponašanje prenosivo — slično kao što liječnik koji razvije etičke navike u medicini primjenjuje iste principe i u poslovnim odlukama. Rad je submittan 2026-06-22. i otvara pitanje hoće li jedna dobro konstruirana faza RL treniranja postati standardni dio pipeline-a za svaki veliki model.

Česta pitanja

Što znači OOD u kontekstu AI usklađenosti?

OOD (out-of-distribution) označava benchmarke ili domene koje model nije vidio tijekom treniranja — pravi test generalizacije, jer model mora primijeniti naučene principe u potpuno novim situacijama.

Može li alignment transfer zamijeniti treniranje za svaku domenu posebno?

Ne u potpunosti, ali rezultati pokazuju da zdravstveni RL donosi poboljšanja na ne-zdravstvenim evaluacijama, što sugerira da korisne osobine imaju opće, a ne samo domenu-specifično djelovanje.

arXiv:2606.24014: RL treniranje na zdravstvenom domenu prenosi usklađenost na 80%+ OOD benchmarka

Što je alignment transfer i zašto je važan?

Kako je RL treniranje provedeno?

Što donosi u praksi?

Zašto je to iskorak?

Česta pitanja

Izvori

Povezane vijesti