Ponedjeljak, 13. travnja 2026.

4 vijesti — 🔴 1 kritično , 🟡 2 važno , 🟢 1 zanimljivo

🤖 Modeli (2)

🟡 🤖 Modeli 13. travnja 2026. · 1 min čitanja

ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu

Process Reward Agents omogućuju malim zamrznutim modelima (0.5B-8B) da značajno poboljšaju medicinski reasoning bez ikakvog treniranja — Qwen3-4B postiže novi state-of-the-art od 80.8% na MedQA.

🟡 🤖 Modeli 13. travnja 2026. · 1 min čitanja

ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja

Sequence-Level PPO reformulira LLM reasoning kao kontekstualni bandit problem, postižući performanse skupih grupnih metoda poput GRPO uz dramatično manje resursa — bez multi-samplinga.

🤝 Agenti (2)

🔴 🤝 Agenti 13. travnja 2026. · 2 min čitanja

ArXiv HiL-Bench: nijedan frontier model ne zna kad treba pitati za pomoć

Novi benchmark otkriva univerzalni nedostatak prosudbe kod AI agenata — kad specifikacije nisu potpune, nijedan frontier model ne postiže više od djelića svoje pune performanse. Istraživači pokazuju da se ta vještina može trenirati RL-om.

🟢 🤝 Agenti 13. travnja 2026. · 1 min čitanja

ArXiv SAGE: 27 LLM-ova testirano — modeli razumiju namjeru ali ne izvršavaju ispravno

Novi benchmark za korisničke servise otkriva dva fenomena: 'Execution Gap' (modeli točno klasificiraju namjere ali ne izvode ispravne radnje) i 'Empathy Resilience' (modeli ostaju pristojni dok rade logičke greške).

← Prethodni dan Sljedeći dan →