Ponedjeljak, 4. svibnja 2026.

9 vijesti — 🟡 6 važno , 🟢 3 zanimljivo

🤖 Modeli (2)

🟢 🤖 Modeli 4. svibnja 2026. · 2 min čitanja

AdaMeZO: fino ugađanje LLM-ova Adam-stilom bez pohrane momenata u GPU memoriji

AdaMeZO je optimizator nultog reda koji kombinira prednosti Adam algoritma s memorijskom učinkovitošću MeZO pristupa za fino ugađanje velikih jezičnih modela. Koristi samo prosljeđivanja unaprijed i postiže do 70% manje prolaza u odnosu na MeZO, uz poboljšanu konvergenciju.

🟢 🤖 Modeli 4. svibnja 2026. · 2 min čitanja

BWLA: 1-bitna kvantizacija LLM-ova s 3,26× ubrzanjem i 70% boljim rezultatima (ACL 2026)

BWLA je novi okvir za post-trenažnu kvantizaciju velikih jezičnih modela koji prvi put postiže istovremenu 1-bitnu preciznost težina i nisko-bitne aktivacije bez značajnog gubitka točnosti. Na modelu Qwen3-32B postiže perpleksiju 11,92 i ubrzanje od 3,26× u odnosu na dosadašnje metode.

🤝 Agenti (4)

🟡 🤝 Agenti 4. svibnja 2026. · 2 min čitanja

ArXiv AEM: adaptivna modulacija entropije za multi-turn RL agente postiže +1,4 % na SWE-bench Verified

AEM (Adaptive Entropy Modulation) je supervision-free metoda treniranja koja dinamički modulira entropiju kroz više koraka razgovora kako bi postigla bolju ravnotežu istraživanja i iskorištavanja u pojačanom učenju agentskih LLM-ova. Testirana na modelima od 1,5 do 32 milijarde parametara, ostvaruje 1,4 % poboljšanja kada se integrira u state-of-the-art baseline na SWE-bench Verified benchmarku.

🟡 🤝 Agenti 4. svibnja 2026. · 2 min čitanja

Position paper s 30 autora na ICML 2026: orkestracija agentnih AI sustava mora biti Bayes-konzistentna

Trideset istraživača iz akademskih i industrijskih laboratorija objavilo je position paper prihvaćen za ICML 2026 koji tvrdi da kontrolni sloj agentnih AI sustava mora poštivati Bayesovsku konzistentnost. Autori smatraju da LLM-ovi nisu prikladni za odluke pod neizvjesnošću, ali da orkestrator iznad njih može i mora održavati kalibrirana vjerovanja i koristiti utility-aware politike.

🟡 🤝 Agenti 4. svibnja 2026. · 3 min čitanja

ArXiv okvir 'To Call or Not to Call' otkriva da LLM-ovi pogrešno procjenjuju kad im trebaju vanjski alati

Istraživači Max Planck Institute for Software Systems i suradnici objavili su okvir koji evaluira tool-calling odluke LLM agenata kroz tri dimenzije: nužnost, korist i prihvatljivost troška. Eksperimenti na šest modela i tri zadatka pokazuju značajan razlikom između onoga što model misli da mu treba i onoga što stvarno povećava točnost — što direktno utječe na cijenu i pouzdanost produkcijskih agenata.

🟢 🤝 Agenti 4. svibnja 2026. · 2 min čitanja

ArXiv: skriveni trošak alata u LLM agentima — "tool-use tax" smanjuje točnost čak i kad alati pomažu

Editorial illustration: ArXiv: skriveni trošak alata u LLM agentima i tool-use tax

Istraživači su pokazali da pozivanje alata u LLM agentima uvodi skriveni trošak — tzv. "tool-use tax" — koji nastaje zbog formatiranja poziva i overhead-a protokola. Faktoriziranom intervencijskom okvirom izoliraju tri komponente troška i uvode G-STEP gate koji djelomično ublažava gubitke bez promjene modela.

🏥 U praksi (1)

🟡 🏥 U praksi 4. svibnja 2026. · 3 min čitanja

IBM studija: 76 % organizacija ima Chief AI Officera, CEO-i očekuju 48 % autonomnih AI odluka do 2030.

IBM Institute for Business Value je objavio studiju nad 2.000 izvršnih direktora iz 33 zemlje koja pokazuje da se uloga Chief AI Officera proširila s 26 % na 76 % organizacija u jednoj godini. CEO-i očekuju da će do 2030. AI sustavi donositi 48 % operativnih odluka bez ljudske intervencije, što redefinira strukturu cijelog C-suitea.

🛡️ Sigurnost (2)

🟡 🛡️ Sigurnost 4. svibnja 2026. · 3 min čitanja

ArXiv ARMOR 2025: prvi vojni benchmark za LLM sigurnost s 519 promptova kroz 21 komercijalni model

Istraživači Virginia Tech-a objavili su ARMOR 2025, prvi sigurnosni benchmark koji ocjenjuje LLM-ove prema Zakonu rata, Pravilima angažmana i Joint Ethics Regulation. Test sa 519 doktrinarnih promptova kroz 21 komercijalni model otkriva kritične praznine — postojeće sigurnosne evaluacije ne testiraju je li model uskladiv s pravnim i etičkim pravilima vojnih operacija.

🟡 🛡️ Sigurnost 4. svibnja 2026. · 3 min čitanja

ICML 2026 Spotlight: Stable-GFlowNet uvodi stabilnije i raznovrsnije automatizirano red-teamanje LLM-ova

Tim s KAIST-a i NAVER Cloud-a predstavio je Stable-GFlowNet (S-GFN), novi pristup automatiziranom red-teamingu velikih jezičnih modela koji eliminira procjenu particijske funkcije Z i koristi parovne usporedbe za stabilno učenje. Rad je dobio ICML 2026 Spotlight oznaku — manje od 5 % prihvaćenih radova — i rješava kronični problem GFlowNet-ova: trening nestabilnost i mode collapse pri šumovitim nagradama.

← Prethodni dan Sljedeći dan →