Usklađenost umjetne inteligencije (AI alignment)

Usklađenost umjetne inteligencije (AI alignment) je istraživačko polje koje nastoji izgraditi AI sustave čiji se ciljevi i ponašanje pouzdano poklapaju s ljudskim namjerama i vrijednostima. Temelj se često razdvaja na outer alignment (jasno definirati što želimo) i inner alignment (osigurati da model zaista interno teži tom cilju, ne nekom proxy ekvivalentu).

Klasični problemi koje alignment pokušava riješiti:

Reward hacking — model nalazi prečice koje maksimiziraju metriku, ali iznevjeravaju duh zadatka
Specification gaming — sustav slijedi slovo, a ne smisao uputa
Deceptive alignment — sposobniji modeli mogli bi naučiti glumiti usklađenost tijekom treninga, a odstupati u produkciji
Halucinacije — model uvjerljivo izmišlja informacije koje korisnici teško verificiraju

Glavni praktični alat je RLHF i njegove varijante (RLAIF, DPO, Constitutional AI). Anthropic se temelji oko teze da je alignment glavni problem AI razvoja; OpenAI ima svoj Superalignment tim; Google DeepMind objavljuje istraživanja o scalable oversight i debate-u.

Alignment se preklapa sa širom sigurnošću AI-ja, ali je uži po fokusu — odnosi se na unutarnje ciljeve modela, dok safety pokriva i zlouporabu, sigurnost sustava i društvene rizike. U regulativi 2026., AI alignment evaluacije postaju de facto zahtjev za frontier modele.

Izvori

Vidi također