Utorak, 5. svibnja 2026.

15 vijesti — 🔴 3 kritično , 🟡 10 važno , 🟢 2 zanimljivo

← Prethodni dan Sljedeći dan →

🤖 Modeli (4)

🟡 🤖 Modeli 5. svibnja 2026. · 3 min čitanja

ArXiv AgentFloor: mali open-weight modeli (0,27B-32B) zadovoljavaju kratkoročne agentne zadatke, GPT-5 zadržava prednost samo u dugoročnom planiranju

Editorial ilustracija: ljestve sposobnosti s modelima različitih veličina na različitim razinama, simbolika tool-use evaluacije

Ranit Karmakar i Jayita Chatterjee predstavili su AgentFloor — determinističku mrežu od 30 zadataka organiziranu u šest razina sposobnosti, na kojoj su evaluirali 16 open-weight modela u rasponu od 0,27 do 32 milijardi parametara plus GPT-5. Zaključak: manji modeli su dovoljni za kratkoročne, strukturirane agentne zadatke, dok frontier modeli zadržavaju jasnu prednost samo na dugoročnom planiranju s ograničenjima.

🟡 🤖 Modeli 5. svibnja 2026. · 3 min čitanja

ArXiv Token Arena: kontinuirani benchmark koji ujedinjuje energiju i kogniciju, otkriva 6,2× razliku u jouleima po točnom odgovoru između endpointa

Editorial ilustracija: vaga koja mjeri energiju i kogniciju AI inference endpointa, simbolika multi-dimenzionalnog benchmarka

Yuxuan Gao, Megan Wang i Yi Ling Yu objavili su 1. svibnja 2026. Token Arenu — neprekidnu benchmarking platformu koja evaluira AI inference na razini krajnjih točaka (78 endpointa, 12 model familija). Otkrivaju da isti model na različitim endpointima može varirati do 12,5 bodova na math/code benchmarku, do reda veličine u tail latenciji i do faktora 6,2 u jouleima po točnom odgovoru. Platforma objavljuje rezultate pod CC BY 4.0 licencom.

🟡 🤖 Modeli 5. svibnja 2026. · 2 min čitanja

NIST CAISI: DeepSeek V4 Pro je najsposobniji kineski AI model do sada, ali zaostaje 8 mjeseci za američkim frontierom

Editorial ilustracija: AI model na vremenskoj liniji koja označava 8-mjesečno zaostajanje, simbolika nezavisne evaluacije

Američki Center for AI Standards and Innovation (CAISI) pri NIST-u objavio je 1. svibnja 2026. nezavisnu evaluaciju DeepSeek V4 Pro modela. Zaključak: ovo je najsposobniji evaluirani PRC AI model do sada, ali u agregatnim mogućnostima zaostaje oko 8 mjeseci za američkim frontierom. Evaluacija je provedena pomoću nepubliciranih benchmarka u pet domena: kibernetička sigurnost, softversko inženjerstvo, prirodne znanosti, apstraktno zaključivanje i matematika.

🟢 🤖 Modeli 5. svibnja 2026. · 2 min čitanja

arXiv:2605.02572: Dugi horizonti destabiliziraju LLM trening — ICML 2026 papir nudi 'horizon generalization' kao rješenje

Editorial illustration: napuknuta horizontalna linija s neuralnim čvorovima i tokovima podataka koji konvergiraju

ICML 2026 prihvaćen rad empirijski dokazuje da povećanje duljine task horizonta uzrokuje ozbiljnu nestabilnost LLM treninga zbog problema exploration i credit assignment. Rješenje koje predlažu: skraćivanje horizonta tijekom treninga uz eksplicitan 'horizon generalization' mehanizam na inferenci. Rad postavlja prva empirijska pravila za skaliranje task horizonta kod frontier modela.

⚖️ Regulacija (1)

🤝 Agenti (3)

🟡 🤝 Agenti 5. svibnja 2026. · 3 min čitanja

ArXiv GUI-SD: prvi on-policy self-distillation framework za GUI grounding nadmašuje GRPO na šest benchmarkova u točnosti i efikasnosti treniranja

Editorial ilustracija: učitelj-učenik dinamika s vizualnim privilegiranim kontekstom GUI elementa, simbolika self-distillation-a

Yan Zhang, Daiqing Wu i Huawen Shen predstavili su GUI-SD — prvi on-policy self-distillation (OPSD) framework specifično za GUI grounding, sposobnost AI agenata da mapiraju prirodnojezične upute na vizualne koordinate elemenata sučelja. Sustav koristi privilegirani vizualni kontekst (bounding box i Gaussian soft mask) i entropy-guided distillation. Na šest reprezentativnih GUI grounding benchmarkova GUI-SD dosljedno nadmašuje GRPO-bazirane RL metode.

🟡 🤝 Agenti 5. svibnja 2026. · 2 min čitanja

AWS Bedrock AgentCore Optimization u previewu: automatizirana petlja od produkcijskih traga do A/B testa s OpenTelemetry trace-ovima

Editorial ilustracija: zatvorena petlja produkcije, evaluacije i A/B testa oko AI agenta, simbolika optimizacije

AWS je 4. svibnja 2026. predstavio AgentCore Optimization u previewu — automatiziranu petlju koja od produkcijskih traceova proizvodi konkretne preporuke za sistemski prompt i opise alata, batch evaluaciju protiv test seta i A/B testove sa statističkom značajnošću. Sustav prikuplja OpenTelemetry-kompatibilne trace-ove svake model pozicije, tool poziva i koraka zaključivanja, čime se ručno pogađanje ispravki zamjenjuje strukturiranim ciklusom temeljenom na produkcijskim podacima.

🟡 🤝 Agenti 5. svibnja 2026. · 3 min čitanja

AWS SageMaker AI dobiva agentne workflowe za fine-tuning s 9 ugrađenih vještina i integracijom Kiroa i Claude Codea

Editorial illustration: futuristička robotska ruka okružena s 9 modula i mrežom čipova

Amazon je 4. svibnja 2026. lansirao agent-guided workflowe u SageMaker AI s 9 ugrađenih skills agenata koji pokrivaju cijeli model customization lifecycle — od specifikacije use casea do deployanja. Sustav podržava SFT, DPO i RLVR trening metode, integrira se s Kiroom (default) i Claude Codeom u JupyterLab okruženju, te tvrdi da reducira mjesece specijaliziranog ML rada na dane.

🔧 Hardware (1)

🏥 U praksi (2)

💬 Zajednica (2)

🛡️ Sigurnost (2)

← Prethodni dan Sljedeći dan →