🤖 Modeli

5 vijesti

🟡 🤖 Modeli 14. travnja 2026. · 2 min čitanja

ArXiv: Process Reward Agents — real-time feedback poboljšava AI zaključivanje u medicini bez retraininga

Istraživači su predstavili Process Reward Agents (PRA), novi pristup koji pruža korak-po-korak povratnu informaciju tijekom AI zaključivanja u medicinskim domenama. Sustav radi s postojećim modelima bez potrebe za retrainingom i postiže značajne rezultate na medicinskim benchmarkovima.

🟡 🤖 Modeli 13. travnja 2026. · 1 min čitanja

ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu

Process Reward Agents omogućuju malim zamrznutim modelima (0.5B-8B) da značajno poboljšaju medicinski reasoning bez ikakvog treniranja — Qwen3-4B postiže novi state-of-the-art od 80.8% na MedQA.

🟡 🤖 Modeli 13. travnja 2026. · 1 min čitanja

ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja

Sequence-Level PPO reformulira LLM reasoning kao kontekstualni bandit problem, postižući performanse skupih grupnih metoda poput GRPO uz dramatično manje resursa — bez multi-samplinga.

🟡 🤖 Modeli 11. travnja 2026. · 2 min čitanja

ArXiv SUPERNOVA: reinforcement learning na prirodnim instrukcijama poboljšava razmišljanje za 52.8%

Novi rad SUPERNOVA pokazuje da sistematska kuracija postojećih instruction-tuning datasetova može značajno poboljšati reasoning u LLM-ovima. Modeli trenirani na SUPERNOVA postižu do 52.8% relativno poboljšanje na BBEH benchmarku.

🟢 🤖 Modeli 10. travnja 2026. · 2 min čitanja

Sentence Transformers v5.4 dodaje podršku za multimodalne embedding i reranker modele

HuggingFaceova biblioteka Sentence Transformers dobila je verziju 5.4 koja uvodi multimodalne embedding i reranker modele. Korisnici sad mogu mapirati tekst, slike, audio i video u zajednički embedding prostor i raditi cross-modal sličnost — unifikacija pretrage preko različitih tipova sadržaja.