🤝 Agenti

12 vijesti

🔴 🤝 Agenti 14. travnja 2026. · 1 min čitanja

OpenAI i Cloudflare: GPT-5.4 i Codex pokreću novu Agent Cloud platformu za enterprise

Cloudflare je integrirao OpenAI-jeve GPT-5.4 i Codex modele u svoju novu Agent Cloud platformu, omogućujući enterprise korisnicima izgradnju, deploy i skaliranje AI agenata za stvarne poslovne zadatke s naglaskom na brzinu i sigurnost.

🟡 🤝 Agenti 14. travnja 2026. · 2 min čitanja

AI2: AI agenti rješavaju 80% školske znanosti, ali samo 20% pravih znanstvenih problema

Allen Institute for AI analizira dva benchmarka koji otkrivaju dramatičan jaz između AI performansi na testovima znanja i sposobnosti za stvarna znanstvena otkrića. Dok modeli dosežu 80% na školskoj razini, na složenim znanstvenim zadacima padaju na 20%.

🟡 🤝 Agenti 14. travnja 2026. · 2 min čitanja

ArXiv HiL-Bench: Znaju li AI agenti kad trebaju pitati čovjeka za pomoć?

Novi benchmark HiL-Bench mjeri sposobnost AI agenata da prepoznaju vlastite granice i zatraže ljudsku pomoć umjesto da nagađaju. Rezultati pokazuju da čak i frontier modeli loše procjenjuju kad im treba pomoć, ali ciljani trening može poboljšati tu sposobnost.

🔴 🤝 Agenti 13. travnja 2026. · 2 min čitanja

ArXiv HiL-Bench: nijedan frontier model ne zna kad treba pitati za pomoć

Novi benchmark otkriva univerzalni nedostatak prosudbe kod AI agenata — kad specifikacije nisu potpune, nijedan frontier model ne postiže više od djelića svoje pune performanse. Istraživači pokazuju da se ta vještina može trenirati RL-om.

🟢 🤝 Agenti 13. travnja 2026. · 1 min čitanja

ArXiv SAGE: 27 LLM-ova testirano — modeli razumiju namjeru ali ne izvršavaju ispravno

Novi benchmark za korisničke servise otkriva dva fenomena: 'Execution Gap' (modeli točno klasificiraju namjere ali ne izvode ispravne radnje) i 'Empathy Resilience' (modeli ostaju pristojni dok rade logičke greške).

🟡 🤝 Agenti 12. travnja 2026. · 2 min čitanja

GitHub Copilot CLI: službeni vodič za početnike — delegiranje zadataka cloud agentima iz terminala

GitHub je 10. travnja objavio službeni tutorial za Copilot CLI alat. Vodič pokriva instalaciju preko npm-a, autentikaciju s GitHub računom i praktične primjere — uključujući delegiranje zadataka cloud agentima.

🟡 🤝 Agenti 11. travnja 2026. · 2 min čitanja

Anthropic objavio policy framework 'Trustworthy agents in practice'

Anthropic je objavio sveobuhvatan policy framework 'Trustworthy agents in practice' koji definira što znači razviti, deployati i koristiti AI agente na pouzdan način. Dokument služi kao smjernica za kompanije koje grade ili koriste agente.

🟡 🤝 Agenti 11. travnja 2026. · 2 min čitanja

ArXiv PASK: proaktivni AI agenti s long-term memorijom koji predviđaju namjere korisnika

Novi rad PASK predstavlja okvir za proaktivne AI agente koji kombiniraju detekciju namjera, hibridnu memoriju i samoinicijativnu akciju. IntentFlow model dosegao je razinu vodećih Gemini 3 Flash modela u prepoznavanju latentnih korisničkih potreba.

🟡 🤝 Agenti 11. travnja 2026. · 2 min čitanja

ArXiv SAVeR: self-auditing za LLM agente — provjeri prije nego što izvršiš (ACL 2026)

Nova metoda SAVeR (Self-Audited Verified Reasoning), prihvaćena na ACL 2026, omogućuje LLM agentima da sami sebe revidiraju prije izvršavanja akcija. Cilj: spriječiti da koherentno razmišljanje koje krši logička ograničenja dovede do pogrešnih odluka.

🟢 🤝 Agenti 11. travnja 2026. · 2 min čitanja

ArXiv KnowU-Bench: novi benchmark za interaktivne i proaktivne mobilne AI agente

Istraživači su predstavili KnowU-Bench — sveobuhvatan benchmark za evaluaciju nove generacije mobilnih AI agenata, fokusirajući se na interaktivnost, proaktivnost i personalizaciju kroz dugoročnu upotrebu.

🟡 🤝 Agenti 10. travnja 2026. · 2 min čitanja

AWS Agent Registry: enterprise katalog AI agenata u preview-u

Amazon je objavio preview AWS Agent Registry-a, centraliziranog kataloga AI agenata, alata i agent skill-ova za enterprise organizacije. Sustav indeksira agente bez obzira gdje su hostani (AWS, drugi cloudovi, on-premises) i koristi kombinaciju keyword i semantičke pretrage uz IAM-based access control.

🟡 🤝 Agenti 10. travnja 2026. · 2 min čitanja

AWS Bedrock AgentCore: stateful MCP klijent omogućuje interaktivne AI workflow-e

Amazon je proširio Bedrock AgentCore Runtime trima novim MCP capabilities — elicitation (traženje strukturiranog inputa od korisnika), sampling (traženje LLM completion-a od klijenta) i progress notifications. Stateful sesije sad mogu trajati do 8 sati u izoliranim microvM-ovima i omogućuju dvosmjernu komunikaciju između agenta i klijenta.