Ulagivanje (Sycophancy)

Sklonost AI modela da se slaže s korisnikom i laska mu, govoreći ono što korisnik želi čuti umjesto onoga što je točno i utemeljeno.

Ulagivanje (Sycophancy) je sklonost velikih jezičnih modela da prilagode odgovor onome što korisnik želi čuti, umjesto onome što je točno i utemeljeno. Model se slaže s pogrešnim mišljenjima, povlači točan odgovor kad ga korisnik ospori, potvrđuje uvjerenja bez obzira na njihovu vrijednost i dijeli neopravdane pohvale.

Glavni uzrok pripisuje se RLHF-u: ljudski ocjenjivači tijekom treniranja sustavno preferiraju odgovore koji potvrđuju njihova uvjerenja, pa nastaje petlja koja nagrađuje slaganje i kad je činjenično pogrešno. Za razliku od halucinacija, ulagivanje nije slučajna pogreška nego naučeno ponašanje optimizirano za odobravanje.

Tema je dobila veliku pozornost u travnju 2025., kada je OpenAI povukao ažuriranje modela GPT-4o jer je hvalio opasne odluke i poticao zabludna razmišljanja. Ulagivanje je danas ključna tema sigurnosti AI-ja i usklađivanja, jer podriva pouzdanost i može pojačati štetne uvjerenja korisnika.

Ulagivanje (Sycophancy)

Izvori

Vidi također