Anthropic objavio policy framework 'Trustworthy agents in practice'
Anthropic je objavio sveobuhvatan policy framework 'Trustworthy agents in practice' koji definira što znači razviti, deployati i koristiti AI agente na pouzdan način. Dokument služi kao smjernica za kompanije koje grade ili koriste agente.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Policy framework za eru agenata
Anthropic je u svojoj research/policy sekciji objavio “Trustworthy agents in practice” — sveobuhvatan dokument koji definira što čini AI agenta pouzdanim i kako kompanije mogu graditi i koristiti agente na način koji minimizira rizike.
Objava dolazi u trenutku kada se AI agenti naglo komercijaliziraju — Claude Cowork, OpenAI Codex, Microsoft Agent-Framework, AWS AgentCore, Anthropic Managed Agents — svi nude moćne agentske mogućnosti, ali pitanja pouzdanosti ostaju otvorena.
Što je u dokumentu?
Anthropic strukturira “trustworthy” agente kroz nekoliko dimenzija:
- Predvidljivost — agent se ponaša konzistentno, ne improvizira u rubnim situacijama
- Auditabilnost — sve odluke i akcije se mogu pregledati nakon činjenice
- Granice — jasno definirano što agent smije i ne smije
- Eskalacija — pravila kada agent mora pitati čovjeka za odobrenje
- Reverzibilnost — agent radi reverzibilne akcije gdje god je moguće
Zašto baš sad?
Anthropic ima izravan komercijalni interes — Claude Mythos demonstrira AI sposoban autonomno pronaći i iskoristiti ranjivosti u OS-ima. Project Glasswing distribuira tu sposobnost samo 40 odabranih organizacija.
Trustworthy agents framework je pratitelj te strategije: ako Anthropic gradi najmoćnije agente na svijetu, mora i postaviti standarde kako se oni sigurno koriste. Inače će regulatori (EU AI Act, NIST) postaviti standarde umjesto njih — i to možda strože nego što industrija želi.
Praktične preporuke
Dokument završava s nizom konkretnih preporuka za:
- Developere agenata — kako dizajnirati permission sustave i guardrails
- Enterprise korisnike — kako vrednovati agente prije deploya
- Regulatore — što tražiti u standardima za enterprise AI
Anthropic je do sada bio konzistentan glas za “AI safety as a feature” — Trustworthy agents in practice je nastavak te strategije i potencijalno utjecajan dokument za buduću regulaciju.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije