🤝 Agenti

56 vijesti

🟡 🤝 Agenti 28. travnja 2026. · 3 min čitanja

OpenAI objavio Symphony: open-source specifikaciju za orkestraciju Codex agenata koja issue trackere pretvara u 'always-on' inženjerske sustave

Apstraktna ilustracija dirigenta koji koordinira više AI agenata predstavljenih kao instrumenti, uz vizualizaciju issue trackera kao notnog zapisa.

OpenAI je 27. travnja 2026. objavio Symphony — open-source specifikaciju za orkestraciju Codex agenata. Cilj je pretvoriti issue trackere u 'always-on agent systems' koji povećavaju inženjerski output i smanjuju troškove kontekstnog prebacivanja unutar developer timova.

🟢 🤝 Agenti 28. travnja 2026. · 4 min čitanja

AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti

Stilizirani prikaz AI agentske arhitekture u kojoj SageMaker endpointi i MLflow tracing povezuju Strands SDK kroz arhitekturu cloud servisa.

AWS je objavio detaljan vodič o gradnji agenata pomoću Strands open-source SDK-a, SageMaker AI endpointa za hostanje modela i SageMaker AI Serverless MLflow-a za observability. Pristup nudi infrastrukturnu kontrolu, podršku za custom modele te automatizirano logiranje izvršnih tragova kroz mlflow.strands.autolog().

🟡 🤝 Agenti 27. travnja 2026. · 3 min čitanja

arXiv:2604.22748: Survey 42 autora uvodi 'levels × laws' taksonomiju za world modele u AI agentima — sinteza 400+ radova

Apstraktni kompas pero koji prati slojeve world modela kroz fizičku, digitalnu, socijalnu i znanstvenu domenu agentnih sustava.

Survey od 42 autora pod naslovom 'Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond' organizira područje kroz dvodimenzionalnu taksonomiju — tri razine sposobnosti modela (Predictor, Simulator, Evolver) i četiri domene zakona (fizička, digitalna, socijalna, znanstvena). Sinteza pokriva preko 400 referenci i više od 100 reprezentativnih sustava.

🟡 🤝 Agenti 27. travnja 2026. · 3 min čitanja

arXiv:2604.22452: Superminds Test pokazuje da kolektivna inteligencija ne nastaje sama u društvu od 2 milijuna AI agenata

Apstraktni kompas pero koji prati rijetke i plitke veze između mnoštva AI agenata u velikoj digitalnoj zajednici.

Istraživači sa sveučilišta u Melbourneu i Marylandu uveli su Superminds Test, hijerarhijski okvir za probanje kolektivne inteligencije agentnih društava. Studij na MoltBook platformi s preko 2 milijuna agenata pokazao je da društvo ne nadmašuje pojedinačne frontier modele i da interakcije ostaju vrlo plitke i rijetke.

🟢 🤝 Agenti 27. travnja 2026. · 3 min čitanja

arXiv:2604.21910: agentic AI automatizira znanstveni workflow s 83 % točnosti, 92 % manje data transfera i $0.001 po upitu

ArXiv 2604.21910: agentic AI automatizira znanstveni workflow s 83 % točnosti, 92 % manje data transfera i $0.001 p...

Bartosz Balis i suradnici s AGH University u Krakovu objavili su 23. travnja 2026. paper koji pretvara prirodnojezične istraživačke upite u izvršne znanstvene workflowove. Trolayer arhitektura (semantički LLM sloj, deterministički generator, expert Skills) testirana je na 1000 Genomes workflowu na Kubernetesu — Skills su podigli intent accuracy s 44 % na 83 %, smanjili data transfer za 92 % uz cijenu ispod $0.001 po upitu.

🟡 🤝 Agenti 25. travnja 2026. · 3 min čitanja

arXiv:2604.21816: 'Tool Attention Is All You Need' eliminira MCP Tax — 95 posto redukcija tokena po turnu agentic workflowa

Editorial illustration: Tool Attention MCP Tax — agentic workflow optimizacija

Istraživači Anuj Sadani i Deepak Kumar objavili su 23. travnja 2026. na ArXivu rad koji rješava takozvani MCP Tax — eager schema injection koji troši 10 do 60 tisuća tokena po turnu. Njihov Tool Attention pristup smanjuje potrošnju za 95 posto i podiže iskoristivost konteksta s 24 na 91 posto.

🟢 🤝 Agenti 25. travnja 2026. · 2 min čitanja

AWS i Visier prikazali enterprise workforce AI agente preko Amazon Q i MCP integracije za HR analitiku

Editorial illustration: AWS Visier Amazon Q — workforce HR AI agenti

AWS i Visier prikazali su integraciju workforce AI agenata preko Amazon Q-a i Model Context Protocola. Visier izlaže HR analitiku kao MCP server, a Amazon Q agenti koriste te alate za headcount budžetiranje, praćenje tenure-a i threshold alertove — sve u jednom konverzacijskom sučelju.

🟡 🤝 Agenti 24. travnja 2026. · 3 min čitanja

Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija

Editorial illustration: AI agent — agenti

Anthropic je u javnu betu pustio Memory za Claude Managed Agents. Agenti sada mogu čuvati korisničke preferencije, projektne konvencije i kontekst između sesija. Beta limitovi uključuju do 1.000 storeova po organizaciji i 100 MB po storeu.

🟢 🤝 Agenti 24. travnja 2026. · 2 min čitanja

GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda

Editorial illustration: AI agent — agenti

GitHub je uveo mogućnost praćenja i upravljanja cloud agent sesijama izravno iz issues i project pogleda. Session pills, bočni paneli s logovima napretka i automatski aktivirane sesije u project pogledima ukazuju na dublju integraciju autonomnih AI agenata u razvojni tijek.

🔴 🤝 Agenti 23. travnja 2026. · 2 min čitanja

Google DeepMind potpisao savezništvo s pet vodećih konzultantskih kuća za enterprise AI

Editorial illustration: AI agent — agenti

Google DeepMind je potpisao partnerstvo s pet najvećih konzultantskih kuća — Accenture, Bain, BCG, Deloitte i McKinsey — kako bi ubrzao enterprise AI transformaciju, jer trenutno samo 25 posto organizacija uspijeva implementirati AI u produkciju.

🔴 🤝 Agenti 23. travnja 2026. · 3 min čitanja

OpenAI lansirao Workspace Agents u ChatGPT-u: Codex-pokretani agenti za enterprise timove

Editorial illustration: AI agent — agenti

OpenAI je predstavio Workspace Agents, Codex-pokretane AI agente integrirane direktno u ChatGPT sučelje. Agenti se pokreću u cloudu, automatiziraju složene radne tokove i pomažu enterprise timovima skalirati rad kroz povezane alate uz naglasak na sigurnosti između aplikacija.

🟡 🤝 Agenti 23. travnja 2026. · 2 min čitanja

AWS objavio arhitekturu za memoriju AI agenata na razini cijele tvrtke kroz Bedrock, Neptune i Mem0

Editorial illustration: AI agent — agenti

AWS je objavio arhitekturu koja kombinira Amazon Bedrock, Neptune grafovsku bazu i Mem0 framework za persistentnu memoriju AI agenata na razini cijele tvrtke, rješavajući problem gubitka konteksta između sesija i korisnika.

🟡 🤝 Agenti 23. travnja 2026. · 2 min čitanja

Amazon Bedrock AgentCore dobio managed harness: radni agent u svega tri API poziva

Editorial illustration: AI agent — agenti

Amazon je najavio managed agent harness za Bedrock AgentCore koji omogućuje deploy potpuno radnog agenta u svega tri API poziva, bez pisanja orkestracijske infrastrukture. Uz harness stižu AgentCore CLI za cijeli razvojni ciklus te pre-built vještine za coding assistente, dostupne u preview fazi u četiri AWS regije.

🟢 🤝 Agenti 23. travnja 2026. · 3 min čitanja

ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji

Editorial illustration: AI agent — agenti

Na ArXivu je objavljen SWE-chat, dataset stvarnih takozvanih in-the-wild interakcija korisnika s AI coding agentima u produkcijskom okruženju. Umjesto još jednog sintetičkog benchmarka na bazi GitHub issue-a, ovaj dataset bilježi kako developeri zaista koriste autonomne sustave dok rade svakodnevni posao — što traže, kako reagiraju na agentove prijedloge i gdje agent zakaže — otvarajući vrata preciznijoj evaluaciji i ciljanim poboljšanjima u dizajnu agenata.

🟢 🤝 Agenti 23. travnja 2026. · 2 min čitanja

Istraživanje OSWorld: AI agenti za računalo često podbace pri ponavljanju zadatka

Editorial illustration: AI agent — agenti

Novo istraživanje pokazuje da AI agenti za upravljanje računalom koji jednom uspješno izvrše zadatak mogu podbaciti pri identičnom ponovljenom pokušaju, a tri ključna razloga su stohastičnost izvršavanja, ambiguitet specifikacije zadatka i varijabilnost ponašanja samog agenta.

🔴 🤝 Agenti 22. travnja 2026. · 4 min čitanja

Google ReasoningBank: agenti uče iz iskustva bez retraininga, +8,3% uspjeha na WebAreni

Editorial ilustracija: Robot u labirintu s osvijetljenim cvorovima koji predstavljaju nauceno iskustvo

Google je predstavio ReasoningBank, memorijski okvir koji omogućuje AI agentima učenje iz vlastitih uspjeha i neuspjeha bez ponovnog treniranja modela. Na WebArena benchmarku postigao je 8,3% veću stopu uspjeha, a na SWE-Bench-Verified 4,6% uz oko 3 koraka manje po zadatku.

🔴 🤝 Agenti 22. travnja 2026. · 4 min čitanja

OpenAI skalira Codex u enterprise: Codex Labs program i 4 milijuna tjednih aktivnih korisnika

Editorial ilustracija: Futuristicki cityscape s AI entitetom i korporativnim neboderima te kodnim ekranima

OpenAI je pokrenuo Codex Labs program i strateška partnerstva s Accentureom, Deloitteom i KPMG-om kako bi Codex agent doveo u velike tvrtke diljem svijeta. Alat je dosegao 4 milijuna tjednih aktivnih korisnika, nudi certifikacije za konzultante te enterprise pakete s consumption-based modelom naplate.

🟡 🤝 Agenti 22. travnja 2026. · 2 min čitanja

Agent-World: skalabilna sinteza okruženja za evoluciju AI agenata iz Renmin Universityja

Editorial ilustracija: Dinamicka okruzenja s pejzazima i gradovima generirana automatski za ucenje AI agenata

Agent-World je novi istraživački okvir kineskog Renmin Universityja koji automatski generira tisuće raznovrsnih okruženja za treniranje AI agenata. Zamjenjuje ručno izrađene benchmark-e dinamičkim scenarijima i omogućuje evolucijsko učenje kroz koevoluciju agenta i okoline.

🟡 🤝 Agenti 22. travnja 2026. · 3 min čitanja

Gemini Deep Research dobiva MCP integraciju, kolaborativno planiranje i dvije nove verzije

Editorial ilustracija: Robot silueta s modularnim serverima i tokovima podataka za Deep Research agenta

Google je u Gemini API-ju lansirao dvije nove verzije Deep Research agenta — deep-research-preview-04-2026 i deep-research-max-preview-04-2026 — s integracijom MCP servera, kolaborativnim planiranjem, vizualizacijama i streaming odgovorima. Potez pozicionira Gemini kao ozbiljnog konkurenta ChatGPT Deep Researchu i Perplexity Deep Researchu.

🟡 🤝 Agenti 22. travnja 2026. · 2 min čitanja

Multi-Agent Systems survey: od klasičnih paradigmi do budućnosti temeljene na velikim modelima

Editorial ilustracija: Povezani AI agenti u komunikaciji premostuju klasicnu paradigmu s modernom LLM-era

Novi arXiv survey sveobuhvatno premošćuje klasičnu Multi-Agent Systems literaturu s modernim LLM-agent stackom. Rad identificira paradigmatski pomak u koordinaciji, komunikacijskim protokolima i emergentnom ponašanju — od razmjene niskog stanja prema semantičkom rezoniranju.

🟡 🤝 Agenti 21. travnja 2026. · 3 min čitanja

AWS kombinira Bedrock AgentCore, MCP i Nova 2 Sonic za omnichannel naručivanje — prvi enterprise agentic showcase

Editorial illustration: AWS kombinira Bedrock AgentCore, MCP i Nova 2 Sonic za omnichannel naručivanje — prvi enterprise agentic showc

AWS je objavio arhitekturalni primjer kako spojiti Bedrock AgentCore Runtime, protokol MCP i glasovni model Nova 2 Sonic u omnichannel sustav naručivanja. To je prva javna integracija novih AWS agentic servisa i demonstracija microVM izolacije za produkcijske agente.

🟡 🤝 Agenti 21. travnja 2026. · 3 min čitanja

LLM agenti mogu stvoriti stabilni cjenovni kartel putem optimizacije prompta, upozorava nova studija

Editorial illustration: LLM agenti mogu stvoriti stabilni cjenovni kartel putem optimizacije prompta, upozorava nova studija

Novi ArXiv rad pokazuje da više LLM agenata može spontano razviti stabilnu algoritamsku koluziju kroz meta-optimizaciju prompta, postižući natkonkurentske cijene bez eksplicitnog dogovora. Nalazi otvaraju ozbiljna pitanja za antimonopolsko pravo i regulaciju multi-agentnih sustava.

🟡 🤝 Agenti 21. travnja 2026. · 4 min čitanja

NVIDIA OpenShell, Adobe Agenti i WPP: autonomni AI agenti kreiraju marketing sadržaj u minutama

Editorialna ilustracija: NVIDIA OpenShell, Adobe Agenti i WPP: autonomni AI agenti kreiraju marketing sadržaj u minutama

NVIDIA je proširila strateška partnerstva s Adobeom i globalnom marketinškom agencijom WPP kako bi pokrenula autonomne AI agente u enterprise marketingu. Temelj je novi NVIDIA OpenShell — sigurno runtime okruženje s policy-based izolacijom — u kombinaciji s Nemotron modelima i Adobe Firefly Foundry generatorom vizualnog sadržaja.

🟢 🤝 Agenti 21. travnja 2026. · 3 min čitanja

AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz multi-turn razgovore

Editorialna ilustracija: AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz

AWS je predstavio ToolSimulator, LLM-pogonjeni framework unutar Strands Evals platforme za sigurno testiranje AI agenata bez živih API poziva. Simulator održava dosljedni shared state kroz višekoračne razgovore i generira kontekstualno prikladne odgovore, što omogućuje testiranje agenata koji šalju mailove ili mijenjaju baze bez stvarnih posljedica.

🟢 🤝 Agenti 21. travnja 2026. · 2 min čitanja

NVIDIA objavila Nemotron-Personas-Korea: 7 milijuna sintetičkih persona za korejske AI agente

Editorial illustration: NVIDIA objavila Nemotron-Personas-Korea: 7 milijuna sintetičkih persona za korejske AI agente

NVIDIA je uz partnere pustila open-source dataset Nemotron-Personas-Korea sa 7 milijuna sintetičkih persona utemeljenih u službenim korejskim demografskim podacima. Cilj je omogućiti razvoj kulturno svjesnih AI agenata bez rizika za privatnost.

🟡 🤝 Agenti 20. travnja 2026. · 3 min čitanja

Experience Compression Spectrum: arhitektonski okvir koji objedinjuje memoriju, vještine i pravila u LLM agentima

Editorial ilustracija: kontinuum razina kompresije iskustva od sirovih epizoda prema sažetim pravilima u LLM agentu

Experience Compression Spectrum je novi arhitektonski okvir koji pozicionira memoriju, vještine i pravila LLM agenata na jednu os rastuće kompresije — od epizodne memorije (5-20×) preko proceduralnih vještina (50-500×) do deklarativnih pravila (1000×+). Analiza otkriva da postojeći sustavi rade na fiksnim razinama kompresije i da memorija i vještine ne komuniciraju međusobno.

🟡 🤝 Agenti 20. travnja 2026. · 3 min čitanja

WORC: jačanje najslabijih agenata u multi-agent sustavima donosi 82.2 % točnost na reasoning benchmarkima

Editorial ilustracija: lanac AI agenata gdje se najslabija karika jača dodatnim računalnim resursima

WORC (Weak-Link Optimization for Reasoning and Collaboration) je novi okvir koji umjesto optimizacije jakih agenata identificira i jača slabe karike u multi-agent LLM sustavima. Kroz meta-learning i swarm intelligence pronalazi podbacivače, a zatim im alocira dodatne resurse za rezoniranje. Rezultat: 82.2 % prosječna točnost na reasoning benchmarkima i bolja stabilnost kroz arhitekture.

🟡 🤝 Agenti 19. travnja 2026. · 2 min čitanja

Autogenesis: Novi protokol za AI agente koji se sami mijenjaju uz verzionirane resurse i rollback mehanizam

Editorial ilustracija: modularni sustav komponenata s povratnim vezama i verzioniranim tokovima

Autogenesis (AGP) je protokol koji modelira AI agente, promptove, alate i memoriju kao registrirane resurse s eksplicitnim stanjem i verzioniranim sučeljima. Self Evolution Protocol Layer (SEPL) daje closed-loop operatorsko sučelje za predlaganje, procjenu i commitanje poboljšanja uz revizijski trag i rollback, čime rješava problem nestabilnosti kod agenata koji iterativno mijenjaju vlastite komponente.

🟡 🤝 Agenti 19. travnja 2026. · 2 min čitanja

RadAgent: AI alat koji korak po korak interpretira CT snimke prsnog koša uz +36 % rel. poboljšanje F1 rezultata

Editorial ilustracija: AI agent analizira CT snimku prsnog koša, medicinski kontekst bez lica

RadAgent je AI agent za interpretaciju CT snimki prsnog koša koji u transparentnom koraku-po-korak procesu nadmašuje baseline CT-Chat model za 36,4 % relativno u macro-F1, 19,6 % u micro-F1 i 41,9 % u adversarijskoj robustnosti. Alat generira radiološke izvještaje s inspekcijskim tragovima odluka i postiže Faithfulness 37 % u odnosu na 0 % baseline.

🟢 🤝 Agenti 19. travnja 2026. · 2 min čitanja

CoopEval: jači reasoning modeli sustavno manje kooperativni u socijalnim dilemama — kontraintuitivno otkriće za multi-agent AI

Editorial ilustracija: dva apstraktna agenta u socijalnoj dilemi, elementi teorije igara

CoopEval je novi benchmark koji testira LLM agente u klasičnim social dilemama poput Prisoner's Dilemma i Public Goods igara. Kontraintuitivno otkriće: jači reasoning modeli defektiraju češće nego slabiji, sustavno narušavajući kooperaciju u single-shot mixed-motive situacijama. Važne implikacije za multi-agent AI deployment gdje agent mora balansirati vlastiti interes s kolektivnim.

🟢 🤝 Agenti 19. travnja 2026. · 3 min čitanja

Mind DeepResearch: tri-agentni framework postiže top rezultate u deep research zadacima s 30B modelima umjesto GPT-4 skale

Editorial ilustracija: tri apstraktna agenta koji surađuju u istraživačkom procesu, mrežna struktura

Mind DeepResearch (MindDR) je novi multi-agent framework za deep research koji postiže kompetitivne rezultate s modelima od oko 30 milijardi parametara — veličinom Qwen2.5 ili DeepSeek razreda, a ne GPT-4 ili Claude Opus. Arhitektura: Planning Agent + DeepSearch Agent + Report Agent uz četverostupanjski training pipeline s data synthesis, prema tehničkom izvještaju objavljenom 17. travnja 2026.

🟡 🤝 Agenti 18. travnja 2026. · 3 min čitanja

LangChain i Cisco pokazuju agentic engineering: 93 % kraće otkrivanje bugova i 65 % brži razvoj

Editorial ilustracija: koordinirani roj AI agenata u softverskom razvoju, apstraktna vizualizacija mreže

Agentic engineering je pristup u kojem rojevi AI agenata preuzimaju cijeli softverski životni ciklus, a ne samo pisanje koda. LangChain i Cisco inženjeri Renuka Kumar i Prashanth Ramagopal objavili su 17. travnja 2026. referentnu arhitekturu s Leader i Worker agentima, koja je u Ciscovom pilotu sa 70 korisnika i 512 sesija smanjila vrijeme otkrivanja uzroka bugova za 93 % i vrijeme izvršavanja razvojnih tokova rada za 65 %.

🟢 🤝 Agenti 18. travnja 2026. · 2 min čitanja

HuggingFace objavio Ecom-RLVE-Gym: 8 okruženja i 12-osni kurikulum za treniranje e-commerce agenata uz pojačano učenje

Editorial ilustracija: apstraktno okruženje e-commerce treninga s mrežom proizvoda i staza učenja

Owlgebra AI tim objavio je 16. travnja 2026. na HuggingFace blogu projekt Ecom-RLVE-Gym — otvoreni framework s 8 verifikabilnih okruženja za e-commerce razgovorne agente i algoritamskom nagradom umjesto LLM-sudca. Sustav koristi katalog od 2 milijuna proizvoda, Qwen 3 8B model i 12-osni adaptivni kurikulum koji agentu poetapno povećava težinu zadataka, kao odgovor na ograničenja supervizornog fine-tuninga u složenim višekorakim tokovima.

🔴 🤝 Agenti 17. travnja 2026. · 2 min čitanja

OpenAI: Codex za (skoro) sve — desktop aplikacija s computer use, browsingom i pluginima

OpenAI Codex je ažurirana desktop aplikacija za macOS i Windows koja sada integrira computer use, in-app browsing, generiranje slika, trajni memory i sustav pluginova. Lansiran istog dana kad i Anthropicov Opus 4.7, Codex predstavlja najambiciozniji pokušaj stvaranja all-in-one AI coding asistenta s punim agentskim sposobnostima.

🟡 🤝 Agenti 17. travnja 2026. · 2 min čitanja

GitHub CLI: nova naredba gh skill omogućuje upravljanje AI agent vještinama na svim platformama

GitHub CLI verzija 2.90.0 uvodi naredbu gh skill koja omogućuje otkrivanje, instalaciju, upravljanje i objavljivanje AI agent vještina za GitHub Copilot, Claude Code, Cursor, Codex, Gemini CLI i Antigravity. Sigurnost opskrbnog lanca osigurana je kroz immutable releaseove, SHA verifikaciju sadržaja i version pinning.

🟢 🤝 Agenti 17. travnja 2026. · 2 min čitanja

ArXiv OpenMobile: open-source mobilni agenti s trajektorijskom sintezom i policy-switchingom

OpenMobile je novi open-source framework za razvoj mobilnih agenata temeljenih na vision-language modelima. Nakon fine-tuninga Qwen2.5-VL postiže 51,7 posto uspjeha, a Qwen3-VL čak 64,7 posto na AndroidWorld benchmarku — što je značajno iznad postojećih open-data pristupa i blizu zatvorenim sustavima koji dostižu skoro 70 posto. Autori puštaju sve podatke i kod javno.

🟢 🤝 Agenti 17. travnja 2026. · 1 min čitanja

LangChain: async subagenti donose fire-and-steer paradigmu za stotine paralelnih AI agenata

LangChain je objavio novi async subagent model koji omogućuje supervisor agentu pokretanje stotina paralelnih subagent instanci bez blokiranja. Fire-and-steer paradigma dopušta mijenjanje uputa subagentima u tijeku izvođenja kroz alate start_async_task, check_async_task i update_async_task, radeći na LangSmith platformi ili self-hosted infrastrukturi.

🟡 🤝 Agenti 16. travnja 2026. · 2 min čitanja

OpenAI: Nova generacija Agents SDK-a donosi native sandbox izvršavanje za pouzdane agente

OpenAI je objavio značajnu nadogradnju svog Agents SDK-a koja uvodi native sandbox execution i model-native harness za izgradnju pouzdanijih dugoročnih AI agenata. Novo izdanje fokusirano je na sigurnost izvršavanja koda i autonomiju agenata, omogućujući razvojnim timovima da grade agente koji mogu raditi satima bez ljudskog nadzora uz zadržavanje pouzdanosti.

🟢 🤝 Agenti 16. travnja 2026. · 2 min čitanja

ArXiv: TREX — dva AI agenta automatiziraju cijeli proces fine-tuninga jezičnih modela

TREX je novi višeagentni sustav koji automatizira kompletan pipeline fine-tuninga velikih jezičnih modela — od analize zahtjeva i pretraživanja literature do pripreme podataka i evaluacije rezultata. Sustav modelira eksperimentalni proces kao stablo pretraživanja, a na FT-Bench benchmarku s 10 stvarnih zadataka konzistentno optimizira performanse modela.

🟢 🤝 Agenti 16. travnja 2026. · 2 min čitanja

IBM Research: VAKRA benchmark otkriva da AI agenti padaju na složenom razmišljanju

IBM Research objavio je VAKRA — novi benchmark za evaluaciju AI agenata u enterprise okruženjima koji sadrži više od 8.000 lokalnih API-ja, 62 domene i 4.187 test instanci. Ključni nalaz je da modeli pokazuju površinsku kompetenciju na jednostavnim zadacima, ali padaju na kompozicijskom razmišljanju, multi-hop reasoning degradira s dubinom, a pridržavanje vanjskih ograničenja uzrokuje značajan pad performansi.

🔴 🤝 Agenti 15. travnja 2026. · 2 min čitanja

ArXiv: Zabrane rade, upute odmažu — empirijska studija pravila za AI kodne agente

Analiza 679 datoteka s pravilima i 25.532 pravila s GitHuba pokazuje da zabrane poboljšavaju AI kodne agente, ali pozitivne upute im zapravo štete. Nasumična pravila rade jednako dobro kao stručno napisana.

🟡 🤝 Agenti 15. travnja 2026. · 1 min čitanja

ArXiv: HORIZON — gdje i zasto AI agenti zakazuju na dugim zadacima

Novi benchmark HORIZON sustavno analizira kako LLM agenti otkazuju na zadacima s dugim horizontom. Istrazivanje otkriva da se greske kumuliraju kroz visestruke korake, a cak i najbolji modeli gube fokus nakon 20+ akcija.

🟡 🤝 Agenti 15. travnja 2026. · 2 min čitanja

ArXiv: PAC-BENCH — Što se dogodi kad AI agenti moraju čuvati tajne dok surađuju?

Prvi benchmark za procjenu suradnje više AI agenata pod ograničenjima privatnosti. Rezultati pokazuju da privatnost značajno degradira kvalitetu suradnje i uzrokuje tri vrste grešaka uključujući halucinacije uzrokovane privatnošću.

🟢 🤝 Agenti 15. travnja 2026. · 1 min čitanja

ArXiv: SWE-AGILE — kako mali modeli rješavaju eksploziju konteksta u kodnim agentima

SWE-AGILE uvodi strategiju dinamičnog konteksta s kliznim prozorom i komprimiranim sažecima za AI kodne agente. S modelom od samo 7-8B parametara postiže novi state-of-the-art na SWE-Bench-Verified, koristeći samo 2.200 trening primjera.

🔴 🤝 Agenti 14. travnja 2026. · 1 min čitanja

OpenAI i Cloudflare: GPT-5.4 i Codex pokreću novu Agent Cloud platformu za enterprise

Cloudflare je integrirao OpenAI-jeve GPT-5.4 i Codex modele u svoju novu Agent Cloud platformu, omogućujući enterprise korisnicima izgradnju, deploy i skaliranje AI agenata za stvarne poslovne zadatke s naglaskom na brzinu i sigurnost.

🟡 🤝 Agenti 14. travnja 2026. · 2 min čitanja

AI2: AI agenti rješavaju 80% školske znanosti, ali samo 20% pravih znanstvenih problema

Allen Institute for AI analizira dva benchmarka koji otkrivaju dramatičan jaz između AI performansi na testovima znanja i sposobnosti za stvarna znanstvena otkrića. Dok modeli dosežu 80% na školskoj razini, na složenim znanstvenim zadacima padaju na 20%.

🟡 🤝 Agenti 14. travnja 2026. · 2 min čitanja

ArXiv HiL-Bench: Znaju li AI agenti kad trebaju pitati čovjeka za pomoć?

Novi benchmark HiL-Bench mjeri sposobnost AI agenata da prepoznaju vlastite granice i zatraže ljudsku pomoć umjesto da nagađaju. Rezultati pokazuju da čak i frontier modeli loše procjenjuju kad im treba pomoć, ali ciljani trening može poboljšati tu sposobnost.

🔴 🤝 Agenti 13. travnja 2026. · 2 min čitanja

ArXiv HiL-Bench: nijedan frontier model ne zna kad treba pitati za pomoć

Novi benchmark otkriva univerzalni nedostatak prosudbe kod AI agenata — kad specifikacije nisu potpune, nijedan frontier model ne postiže više od djelića svoje pune performanse. Istraživači pokazuju da se ta vještina može trenirati RL-om.

🟢 🤝 Agenti 13. travnja 2026. · 1 min čitanja

ArXiv SAGE: 27 LLM-ova testirano — modeli razumiju namjeru ali ne izvršavaju ispravno

Novi benchmark za korisničke servise otkriva dva fenomena: 'Execution Gap' (modeli točno klasificiraju namjere ali ne izvode ispravne radnje) i 'Empathy Resilience' (modeli ostaju pristojni dok rade logičke greške).

🟡 🤝 Agenti 12. travnja 2026. · 2 min čitanja

GitHub Copilot CLI: službeni vodič za početnike — delegiranje zadataka cloud agentima iz terminala

GitHub je 10. travnja objavio službeni tutorial za Copilot CLI alat. Vodič pokriva instalaciju preko npm-a, autentikaciju s GitHub računom i praktične primjere — uključujući delegiranje zadataka cloud agentima.

🟡 🤝 Agenti 11. travnja 2026. · 2 min čitanja

Anthropic objavio policy framework 'Trustworthy agents in practice'

Anthropic je objavio sveobuhvatan policy framework 'Trustworthy agents in practice' koji definira što znači razviti, deployati i koristiti AI agente na pouzdan način. Dokument služi kao smjernica za kompanije koje grade ili koriste agente.

🟡 🤝 Agenti 11. travnja 2026. · 2 min čitanja

ArXiv PASK: proaktivni AI agenti s long-term memorijom koji predviđaju namjere korisnika

Novi rad PASK predstavlja okvir za proaktivne AI agente koji kombiniraju detekciju namjera, hibridnu memoriju i samoinicijativnu akciju. IntentFlow model dosegao je razinu vodećih Gemini 3 Flash modela u prepoznavanju latentnih korisničkih potreba.

🟡 🤝 Agenti 11. travnja 2026. · 2 min čitanja

ArXiv SAVeR: self-auditing za LLM agente — provjeri prije nego što izvršiš (ACL 2026)

Nova metoda SAVeR (Self-Audited Verified Reasoning), prihvaćena na ACL 2026, omogućuje LLM agentima da sami sebe revidiraju prije izvršavanja akcija. Cilj: spriječiti da koherentno razmišljanje koje krši logička ograničenja dovede do pogrešnih odluka.

🟢 🤝 Agenti 11. travnja 2026. · 2 min čitanja

ArXiv KnowU-Bench: novi benchmark za interaktivne i proaktivne mobilne AI agente

Istraživači su predstavili KnowU-Bench — sveobuhvatan benchmark za evaluaciju nove generacije mobilnih AI agenata, fokusirajući se na interaktivnost, proaktivnost i personalizaciju kroz dugoročnu upotrebu.

🟡 🤝 Agenti 10. travnja 2026. · 2 min čitanja

AWS Agent Registry: enterprise katalog AI agenata u preview-u

Amazon je objavio preview AWS Agent Registry-a, centraliziranog kataloga AI agenata, alata i agent skill-ova za enterprise organizacije. Sustav indeksira agente bez obzira gdje su hostani (AWS, drugi cloudovi, on-premises) i koristi kombinaciju keyword i semantičke pretrage uz IAM-based access control.

🟡 🤝 Agenti 10. travnja 2026. · 2 min čitanja

AWS Bedrock AgentCore: stateful MCP klijent omogućuje interaktivne AI workflow-e

Amazon je proširio Bedrock AgentCore Runtime trima novim MCP capabilities — elicitation (traženje strukturiranog inputa od korisnika), sampling (traženje LLM completion-a od klijenta) i progress notifications. Stateful sesije sad mogu trajati do 8 sati u izoliranim microvM-ovima i omogućuju dvosmjernu komunikaciju između agenta i klijenta.