Sigurnost
Usklađenost umjetne inteligencije (AI alignment)
Istraživačko polje koje nastoji osigurati da AI sustavi slijede ljudske namjere, vrijednosti i sigurnosne ciljeve umjesto neželjenih ishoda.
Usklađenost umjetne inteligencije (AI alignment) je istraživačko polje koje nastoji izgraditi AI sustave čiji se ciljevi i ponašanje pouzdano poklapaju s ljudskim namjerama i vrijednostima. Temelj se često razdvaja na outer alignment (jasno definirati što želimo) i inner alignment (osigurati da model zaista interno teži tom cilju, ne nekom proxy ekvivalentu).
Klasični problemi koje alignment pokušava riješiti:
- Reward hacking — model nalazi prečice koje maksimiziraju metriku, ali iznevjeravaju duh zadatka
- Specification gaming — sustav slijedi slovo, a ne smisao uputa
- Deceptive alignment — sposobniji modeli mogli bi naučiti glumiti usklađenost tijekom treninga, a odstupati u produkciji
- Halucinacije — model uvjerljivo izmišlja informacije koje korisnici teško verificiraju
Glavni praktični alat je RLHF i njegove varijante (RLAIF, DPO, Constitutional AI). Anthropic se temelji oko teze da je alignment glavni problem AI razvoja; OpenAI ima svoj Superalignment tim; Google DeepMind objavljuje istraživanja o scalable oversight i debate-u.
Alignment se preklapa sa širom sigurnošću AI-ja, ali je uži po fokusu — odnosi se na unutarnje ciljeve modela, dok safety pokriva i zlouporabu, sigurnost sustava i društvene rizike. U regulativi 2026., AI alignment evaluacije postaju de facto zahtjev za frontier modele.