arXiv:2606.24014: RL treniranje na zdravstvenom domenu prenosi usklađenost na 80%+ OOD benchmarka
Istraživači Google Researcha pokazali su da RL treniranje na korisnim osobinama poput istinitosti, pravednosti i korektabilnosti poboljšava performanse na više od 80% od 50+ neovisnih OOD benchmarka — uključujući domene izvan zdravlja na kojoj je model treniran.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je alignment transfer i zašto je važan?
Alignment transfer označava sposobnost modela da korisne osobine naučene u jednoj domeni — poput zdravlja — primijeni u potpuno drugačijim kontekstima bez dodatnog treniranja. Google Research objavio je rad “Reinforcement Learning Towards Broadly and Persistently Beneficial Models” (autori: Akshay V. Jagadeesh, Rahul K. Arora, Khaled Saab i suradnici), koji pokazuje da je taj prijenos moguć i mjerljiv u velikom opsegu.
Kako je RL treniranje provedeno?
Istraživači su konstruirali skupove podataka koji mjere četiri korisne osobine: istinitost (truthfulness), pravednost (fairness), svjesnost rizika i korektabilnost (corrigibility — sposobnost da se model popravi ili zaustavi). Treniranje je provedeno primarno u zdravstvenom, znanstvenom i obrazovnom domenu. Ključni rezultat: poboljšanja su zabilježena na više od 80% od ukupno 50+ neovisnih OOD (out-of-distribution) benchmarka — dakle, na evaluacijama izvan domene treniranja. Za razliku od klasičnog pristupa gdje se svaki slučaj primjene uslađuje posebno, ovaj model postiže generalizaciju jednim skupom treniranja.
Što donosi u praksi?
Modeli trenirani ovim pristupom pokazuju veću otpornost na adversarijalne promptove — pokušaje korisnika da ih navedu na štetne odgovore — te na harmful fine-tuning, situacije gdje napadač pokušava naknadno pretrenirani model učiniti štetnim. Istovremeno, pristup smanjuje reward hacking, pojavu u kojoj model optimizira metriku nagrade bez stvarnog učenja poželjnog ponašanja. Zdravstveni RL, konkretno, donosi „široka poboljšanja na ne-zdravstvenim evaluacijama usklađenosti” — što sugerira da domenu-specifično treniranje nije nužno silos.
Zašto je to iskorak?
Dosadašnji modeli zahtijevali su zasebno usklađivanje za svaku primjenu. Ovaj rad demonstrira da je korisno ponašanje prenosivo — slično kao što liječnik koji razvije etičke navike u medicini primjenjuje iste principe i u poslovnim odlukama. Rad je submittan 2026-06-22. i otvara pitanje hoće li jedna dobro konstruirana faza RL treniranja postati standardni dio pipeline-a za svaki veliki model.
Česta pitanja
- Što znači OOD u kontekstu AI usklađenosti?
- OOD (out-of-distribution) označava benchmarke ili domene koje model nije vidio tijekom treniranja — pravi test generalizacije, jer model mora primijeniti naučene principe u potpuno novim situacijama.
- Može li alignment transfer zamijeniti treniranje za svaku domenu posebno?
- Ne u potpunosti, ali rezultati pokazuju da zdravstveni RL donosi poboljšanja na ne-zdravstvenim evaluacijama, što sugerira da korisne osobine imaju opće, a ne samo domenu-specifično djelovanje.
Izvori
Povezane vijesti
arXiv:2606.24510: RaDaR — specijalizirani 32B reasoning LLM ubrzava dijagnozu rijetkih bolesti u RCT-u
Google: DiffusionGemma 26B — 4× brža generacija teksta difuzijskim pristupom
Google: Gemini 3.5 Live Translate — prijevod govor-u-govor u 70+ jezika u stvarnom vremenu