Anthropic objavio policy framework 'Trustworthy agents in practice'

Anthropic je objavio sveobuhvatan policy framework 'Trustworthy agents in practice' koji definira što znači razviti, deployati i koristiti AI agente na pouzdan način. Dokument služi kao smjernica za kompanije koje grade ili koriste agente.

Policy framework za eru agenata

Anthropic je u svojoj research/policy sekciji objavio “Trustworthy agents in practice” — sveobuhvatan dokument koji definira što čini AI agenta pouzdanim i kako kompanije mogu graditi i koristiti agente na način koji minimizira rizike.

Objava dolazi u trenutku kada se AI agenti naglo komercijaliziraju — Claude Cowork, OpenAI Codex, Microsoft Agent-Framework, AWS AgentCore, Anthropic Managed Agents — svi nude moćne agentske mogućnosti, ali pitanja pouzdanosti ostaju otvorena.

Što je u dokumentu?

Anthropic strukturira “trustworthy” agente kroz nekoliko dimenzija:

Predvidljivost — agent se ponaša konzistentno, ne improvizira u rubnim situacijama
Auditabilnost — sve odluke i akcije se mogu pregledati nakon činjenice
Granice — jasno definirano što agent smije i ne smije
Eskalacija — pravila kada agent mora pitati čovjeka za odobrenje
Reverzibilnost — agent radi reverzibilne akcije gdje god je moguće

Zašto baš sad?

Anthropic ima izravan komercijalni interes — Claude Mythos demonstrira AI sposoban autonomno pronaći i iskoristiti ranjivosti u OS-ima. Project Glasswing distribuira tu sposobnost samo 40 odabranih organizacija.

Trustworthy agents framework je pratitelj te strategije: ako Anthropic gradi najmoćnije agente na svijetu, mora i postaviti standarde kako se oni sigurno koriste. Inače će regulatori (EU AI Act, NIST) postaviti standarde umjesto njih — i to možda strože nego što industrija želi.

Praktične preporuke

Dokument završava s nizom konkretnih preporuka za:

Developere agenata — kako dizajnirati permission sustave i guardrails
Enterprise korisnike — kako vrednovati agente prije deploya
Regulatore — što tražiti u standardima za enterprise AI

Anthropic je do sada bio konzistentan glas za “AI safety as a feature” — Trustworthy agents in practice je nastavak te strategije i potencijalno utjecajan dokument za buduću regulaciju.

Anthropic objavio policy framework 'Trustworthy agents in practice'

Policy framework za eru agenata

Što je u dokumentu?

Zašto baš sad?

Praktične preporuke

Izvori

Povezane vijesti