Sigurnost

Ustavni AI (Constitutional AI)

Anthropicova metoda usklađivanja modela pomoću pisanog skupa načela („ustava”) i AI povratne informacije (RLAIF) umjesto ljudskih oznaka za štetne odgovore.

Ustavni AI (Constitutional AI, CAI) je metoda usklađivanja jezičnih modela koju je razvio Anthropic. Umjesto da se oslanja na ljude koji ručno označavaju štetne odgovore, model se usmjerava pisanim skupom načela — „ustavom” — i povratnom informacijom koju daje sam AI.

Postupak se odvija u dvije faze. U nadziranoj fazi model generira odgovore, zatim ih prema načelima ustava sam kritizira i revidira, a na tim revizijama se fino podešava. U fazi pojačanog učenja model uspoređuje parove odgovora i bira onaj koji bolje slijedi ustav; iz tih AI-generiranih preferencija trenira se model nagrade. Ta varijanta naziva se RLAIF (RL from AI Feedback) i izravna je analogija RLHF-u, ali bez ljudi u petlji ocjenjivanja.

Ustav crpi načela iz izvora poput Opće deklaracije o ljudskim pravima. CAI je temelj treniranja Claudea i ostaje aktualna tema sigurnosti AI-ja jer omogućuje skalabilan nadzor i transparentnija, eksplicitno zapisana pravila ponašanja.

Izvori

Vidi također