Ponedjeljak, 4. svibnja 2026.

9 vijesti — 🟡 6 važno , 🟢 3 zanimljivo

← Prethodni dan Sljedeći dan →

🤖 Modeli (2)

🤝 Agenti (4)

🟡 🤝 Agenti 4. svibnja 2026. · 2 min čitanja

ArXiv AEM: adaptivna modulacija entropije za multi-turn RL agente postiže +1,4 % na SWE-bench Verified

Editorial illustration: ArXiv AEM: adaptivna modulacija entropije za multi-turn RL agente postiže +1,4 % na SWE-bench Verified

AEM (Adaptive Entropy Modulation) je supervision-free metoda treniranja koja dinamički modulira entropiju kroz više koraka razgovora kako bi postigla bolju ravnotežu istraživanja i iskorištavanja u pojačanom učenju agentskih LLM-ova. Testirana na modelima od 1,5 do 32 milijarde parametara, ostvaruje 1,4 % poboljšanja kada se integrira u state-of-the-art baseline na SWE-bench Verified benchmarku.

🟡 🤝 Agenti 4. svibnja 2026. · 2 min čitanja

Position paper s 30 autora na ICML 2026: orkestracija agentnih AI sustava mora biti Bayes-konzistentna

Editorial illustration: Position paper s 30 autora na ICML 2026: orkestracija agentnih AI sustava mora biti Bayes-konzistentna

Trideset istraživača iz akademskih i industrijskih laboratorija objavilo je position paper prihvaćen za ICML 2026 koji tvrdi da kontrolni sloj agentnih AI sustava mora poštivati Bayesovsku konzistentnost. Autori smatraju da LLM-ovi nisu prikladni za odluke pod neizvjesnošću, ali da orkestrator iznad njih može i mora održavati kalibrirana vjerovanja i koristiti utility-aware politike.

🟡 🤝 Agenti 4. svibnja 2026. · 3 min čitanja

ArXiv okvir 'To Call or Not to Call' otkriva da LLM-ovi pogrešno procjenjuju kad im trebaju vanjski alati

Editorial illustration: ArXiv okvir 'To Call or Not to Call' otkriva da LLM-ovi pogrešno procjenjuju kad im trebaju vanjski alati

Istraživači Max Planck Institute for Software Systems i suradnici objavili su okvir koji evaluira tool-calling odluke LLM agenata kroz tri dimenzije: nužnost, korist i prihvatljivost troška. Eksperimenti na šest modela i tri zadatka pokazuju značajan razlikom između onoga što model misli da mu treba i onoga što stvarno povećava točnost — što direktno utječe na cijenu i pouzdanost produkcijskih agenata.

🟢 🤝 Agenti 4. svibnja 2026. · 2 min čitanja

ArXiv: skriveni trošak alata u LLM agentima — "tool-use tax" smanjuje točnost čak i kad alati pomažu

Editorial illustration: ArXiv: skriveni trošak alata u LLM agentima i tool-use tax

Istraživači su pokazali da pozivanje alata u LLM agentima uvodi skriveni trošak — tzv. "tool-use tax" — koji nastaje zbog formatiranja poziva i overhead-a protokola. Faktoriziranom intervencijskom okvirom izoliraju tri komponente troška i uvode G-STEP gate koji djelomično ublažava gubitke bez promjene modela.

🏥 U praksi (1)

🛡️ Sigurnost (2)

← Prethodni dan Sljedeći dan →