🤖 Modeli

92 vijesti

🟡 🤖 Modeli 22. svibnja 2026. · 3 min čitanja

arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima

Editorial illustration: 2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM mode

Istraživači su 21. svibnja 2026. na arXivu objavili rad pod nazivom 'Playing Devil's Advocate' koji pokazuje da postojeći persona vektori razvijeni za roleplay zadatke mogu reducirati sycophancy (sklonost modela slaganju s korisnikom čak i kad griješi) na 68-98% učinkovitosti specijaliziranog Contrastive Activation Addition (CAA) pristupa — bez treniranja na sycophancy-specifičnim podacima. Geometrijska analiza otkriva da je sycophancy svojstvo na razini persone, a ne jedan vodljiv smjer u aktivacijskom prostoru, što otvara puno lakše puteve za alignment.

🟢 🤖 Modeli 22. svibnja 2026. · 3 min čitanja

Black Forest Labs: FLUX Erase nadmašuje GPT Image-2 (68.5%) i Finegrain (63.2%) u uklanjanju objekata bez prompta

Editorial illustration: FLUX Erase nadmašuje GPT Image-2 (68.5%) i Finegrain (63.2%) u uklanjanju objekata bez prompta

Black Forest Labs je 21. svibnja 2026. lansirao FLUX Erase — inpainting alat koji uz binarnu masku uklanja objekte, sjene, vodene žigove i tekstove iz slika i rekonstruira pozadinu bez ikakvog tekstualnog prompta. Benchmark na 198 testnih slika pokazuje nadmoć nad GPT Image-2 (68.5%) i Finegrain Eraser Standard (63.2%). Alat je dostupan kroz BFL API i javni demo na flux-tools.bfl.ai/erase, pozicionirajući BFL kao specijalista za professional creative workflow alate.

🔴 🤖 Modeli 21. svibnja 2026. · 2 min čitanja

OpenAI: AI model opovrgnuo 80-godišnju konjekturu u diskretnoj geometriji

Editorial illustration: OpenAI AI model opovrgnuo 80-godišnju konjekturu o jediničnim udaljenostima u diskretnoj geometriji

OpenAI je objavio da je njegov AI model riješio otvoreni problem jedinične udaljenosti (unit distance problem) — središnju konjekturu diskretne geometrije postavljenu prije više od 80 godina. Tvrtka opisuje rezultat kao prekretnicu u AI-vođenoj matematici jer model nije samo provjerio postojeću tezu, nego ju je opovrgnuo originalnom konstrukcijom protuprimjera.

🟢 🤖 Modeli 21. svibnja 2026. · 2 min čitanja

arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova

Editorial illustration: ICML 2026 paper dokazuje da strukturirani reasoning signali nadmašuju čisti kod za matematičko zaključivanje LLM-ova

ArXiv preprint primljen na ICML 2026 kontroliranim pre-training eksperimentima pokazuje da izvršivi kod sam po sebi ne poboljšava opće sposobnosti zaključivanja LLM modela — kod jako poboljšava programiranje, ali se natječe s matematičkim zadacima u standardnom režimu. Stvarni napredak u matematici dolazi od cross-domain strukturiranih reasoning tragova (code-text i math-text mješavina), a mehanistička analiza Mixture-of-Experts modela otkriva ove interakcije u uzorcima expert aktivacije.

🔴 🤖 Modeli 20. svibnja 2026. · 3 min čitanja

Google: Gemini 3.5 Flash i Pro — najbrži frontier modeli do sada

Editorial illustration: Google je na Google I/O 2026 predstavio Gemini 3.5 Flash i Pro — frontier modele koji su 4× brži od

Google je na Google I/O 2026 predstavio Gemini 3.5 Flash i Pro — frontier modele koji su 4× brži od konkurencije, s posebnim naglaskom na agentske zadatke, novu platformu Antigravity 2.0 za razvojne programere i Gemini Spark, osobnog AI agenta dostupnog 24/7.

🔴 🤖 Modeli 20. svibnja 2026. · 3 min čitanja

Google: Gemini Omni Flash donosi nativnu video generaciju iz mješovitih inputa

Editorial illustration: Google je na I/O 2026 predstavio Gemini Omni Flash — novi multimodalni model koji generira i uređuje

Google je na I/O 2026 predstavio Gemini Omni Flash — novi multimodalni model koji generira i uređuje video iz kombinacije slika, zvuka, videa i teksta. Dostupan odmah na YouTube Shortsima, uz obavezni SynthID digitalni vodeni žig na svakom generiranom isječku.

🟡 🤖 Modeli 20. svibnja 2026. · 2 min čitanja

Google: ERA — AI sustav koji automatizira pisanje znanstvenog koda

Editorial illustration:

Google je u časopisu Nature objavio ERA (Empirical Research Assistance) — Gemini-powered sustav koji tree-searchom evaluira tisuće računalnih pristupa i automatizira pisanje ekspertnog znanstvenog softvera. Platforma Computational Discovery već je dostupna istraživačima kroz Google Labs.

🟢 🤖 Modeli 20. svibnja 2026. · 2 min čitanja

arXiv:2605.19660: OScaR — INT2 kvantizacija KV cachea donosi 3× brži decoding

Editorial illustration: Istraživači su objavili OScaR, metodu koja rješava temeljni problem kvantizacije KV cachea u velikim

Istraživači su objavili OScaR, metodu koja rješava temeljni problem kvantizacije KV cachea u velikim jezičnim modelima. Koristeći INT2 preciznost — svega 2 bita po vrijednosti — postiže gotovo bez gubitka točnosti, 3× brži decoding, 5,3× manje memorije i 4,1× veći throughput u usporedbi s BF16 FlashDecoding-v2.

🔴 🤖 Modeli 19. svibnja 2026. · 3 min čitanja

arXiv:2605.15514: RoPE matematički ne razlikuje pozicije ni tokene u dugim kontekstima — teorijski dokaz fundamentalnog ograničenja

Editorial illustration: arXiv paper 2605.15514 donosi matematički dokaz da Rotary Positional Embeddings (RoPE), pozicijski m

arXiv paper 2605.15514 donosi matematički dokaz da Rotary Positional Embeddings (RoPE), pozicijski mehanizam koji koriste gotovo svi moderni veliki jezični modeli uključujući Llamu, Mistral, Qwen i GPT-NeoX, gubi sposobnost razlikovanja pozicija i tokena u dugačkim kontekstima. Autori zaključuju da su potrebni fundamentalno novi arhitekturni mehanizmi.

🟡 🤖 Modeli 19. svibnja 2026. · 2 min čitanja

Anthropic: Claude API web search alat sada vraća obogaćene podatke iz SEC prijava

Editorial illustration: Anthropic je 18. svibnja 2026. ažurirao web search alat u Claude API-ju tako da vraća bogatije i str

Anthropic je 18. svibnja 2026. ažurirao web search alat u Claude API-ju tako da vraća bogatije i strukturiranije podatke iz SEC prijava — uključujući 10-K, 10-Q i 8-K dokumente. Nadogradnja olakšava izgradnju financijskih agenata za analizu zarada, due-diligence i istraživanje s referenciranim primarnim izvorima.

🟢 🤖 Modeli 19. svibnja 2026. · 2 min čitanja

arXiv:2605.18732: Zakon skaliranja za halucinacije — veći model ne znači nužno manje grešaka

Editorial illustration:

Istraživači su na 38 modela i 8900+ referenci pokazali da faktički recall LLM-a prati sigmoid-krivulju: kombinacija broja parametara i zastupljenosti teme u training dati objašnjava 60–94% varijance. Hallucinations nisu slučajne — predvidive su i mjerljive.

🟡 🤖 Modeli 18. svibnja 2026. · 3 min čitanja

GitHub Copilot: GPT-5.3-Codex postaje base model za Business i Enterprise s 12-mjesečnim LTS jamstvom

Editorial illustration: GitHub Copilot logo s GPT-5.3-Codex badge i LTS support stamp.

GitHub je 17. svibnja 2026. objavio da GPT-5.3-Codex zamjenjuje GPT-4.1 kao base model za Copilot Business i Enterprise. Promjena se odnosi samo na enterprise tier (ne Copilot Pro, Pro+ ili Free). GPT-5.3-Codex je prvi LTS (long-term support) model — zajamčena dostupnost 12 mjeseci od 5. veljače 2026. do 4. veljače 2027. Pricing: 1× premium request multiplier; GPT-4.1 ostaje force-enabled na 0× multiplier do deprecation-a 1. lipnja 2026.

🟡 🤖 Modeli 16. svibnja 2026. · 3 min čitanja

Black Forest Labs: FLUX Outpainting proširuje slike u bilo kojem smjeru uz očuvanje svjetla, teksture i kompozicije

Editorial illustration: slika koja se širi kroz okvir s očuvanim svjetlom i teksturom.

FLUX Outpainting je novi Black Forest Labs image generation feature objavljen 14. svibnja 2026. koji proširuje slike u bilo kojem smjeru kroz purpose-built expansion endpoint. Korisnik specificira target canvas dimensions i placement coordinates — model očuvava lighting, texture, depth i composition kroz extension regije bez tekstualnih prompts. Do 4MP output, dostupno preko BFL API-ja, public demo na flux-tools.bfl.ai/outpainting.

🟡 🤖 Modeli 15. svibnja 2026. · 2 min čitanja

Amazon Nova 2 Sonic: speech-to-speech foundation model s end-to-end latencijom ispod 500ms i 30ms audio latencijom

Editorial illustration: voice agent s glasovnim valovima i edge network grafikom.

Amazon Nova 2 Sonic je nova generacija speech-to-speech foundation modela objavljena 14. svibnja 2026. kroz Amazon Bedrock. Eliminira potrebu za odvojenim speech-to-text i text-to-speech servisima — end-to-end latencija ispod 500ms, audio latencija ispod 30ms preko Stream edge network-a, native turn detection, barge-in support i function calling tijekom razgovora. Stream Vision Agents framework apstrahira bidirectional audio stream menadžment.

🟡 🤖 Modeli 15. svibnja 2026. · 2 min čitanja

arXiv:2605.15177 OpenDeepThink: paralelno rasuđivanje preko Bradley-Terry agregacije podiglo Gemini 3.1 Pro za +405 Elo na Codeforces

Editorial illustration: paralelne reasoning grane s pairwise sudski simbolima i Elo ratingom.

OpenDeepThink je nova population-based test-time compute scaling metodologija objavljena 14. svibnja 2026. na arXivu autora Shang Zhou i suradnika. Framework paralelno sampluje više reasoning kandidata i bira najboljeg kroz pairwise Bradley-Terry usporedbe, umjesto pointwise LLM judging-a. Rezultat: Gemini 3.1 Pro dobiva +405 Elo na Codeforces benchmarcima kroz osam sequential LLM-call rundi (~27 minuta). Tim objavio i CF-73 dataset s 73 ekspertski ocijenjena Codeforces problema.

🟡 🤖 Modeli 14. svibnja 2026. · 2 min čitanja

arXiv:2605.13301 SU-01: 30B model dostiže gold-medal razinu na IMO 2025, USAMO 2026 i IPhO kroz tri-fazni trening

Editorial illustration: medaljska postolja s matematičkim formulama i AI reasoning stablima.

SU-01 je nova metodologija reasoning training-a objavljena 14. svibnja 2026. na arXivu (Yafu Li i 27 koautora, korespondent Runzhe Zhan). 30B parameter A3B backbone dostiže gold-medal performance na International Mathematical Olympiad 2025, USAMO 2026 i International Physics Olympiad 2024-2025 kroz tri sekvencijalne faze: reverse-perplexity curriculum SFT na 340K trajektorija, two-stage RL i test-time scaling. Reasoning lanci dosežu 100K+ tokena.

🟢 🤖 Modeli 14. svibnja 2026. · 2 min čitanja

Allen Institute: AIMIP benchmark — AI klimatski modeli 2× bolji na povijesti, ali ne generaliziraju na dugoročno zagrijavanje

Editorial illustration: klimatske vremenske grafe s AI model linijama vs povijesni podaci.

AIMIP (AI Model Intercomparison Project) je novi community benchmark za AI vremenske i klimatske modele objavljen 13. svibnja 2026. od strane Allen Institute uz NVIDIA, Google Research, University of Washington, University of Maryland i ArchesWeather grupu. Phase 1 evaluacija osam AI model simulacija pokazala je dvostruko smanjenje greške na povijesnim podacima — ali također ozbiljnu nesposobnost generalizacije na dugoročne warming trendove.

🟢 🤖 Modeli 14. svibnja 2026. · 2 min čitanja

Microsoft Research GridSFM: foundation model rješava AC optimal power flow 100× brže od DC aproksimacije

Editorial illustration: elektroenergetska mreža s AI foundation modelom i optimizacijskim grafom.

GridSFM je novi Microsoft Research small foundation model za elektroenergetske mreže objavljen 13. svibnja 2026. Aproksimira AC optimal power flow u milisekundama na mrežama od 500 do 80.000 čvorova, 100× brže od DC aproksimacije i 1.000× brže od full AC solvera. Median cost gap je 2,23%, feasibility detekcija postiže 94,5%/96,1%, a model donosi potencijalne uštede od $20 milijardi godišnje u congestion troškovima.

🟡 🤖 Modeli 13. svibnja 2026. · 2 min čitanja

Anthropic: Claude Opus 4.7 Fast Mode u research previewu — premium brzina za flagship model

Editorial illustration: brzi tokovi tokena kroz neuralnu arhitekturu pod premium signalom.

Claude Opus 4.7 Fast Mode je novi research preview Anthropic API featurea objavljen 12. svibnja 2026. koji omogućuje značajno bržu generaciju output tokena za najjači Anthropic model uz premium cijenu. Programeri aktiviraju mod parametrom speed="fast", model claude-opus-4-7 i beta headerom fast-mode-2026-02-01. Pristup, rate limits i cijena identični su Opus 4.6 Fast Mode varijanti.

🟢 🤖 Modeli 13. svibnja 2026. · 2 min čitanja

Microsoft Research: MatterSim eksperimentalno sintetizirao TaP s 152 W/m/K, MatterSim-MT proširuje izlaz izvan PES-a

Editorial illustration: kristalna materijalna struktura s termalnim provodnim prikazom.

MatterSim je novi Microsoft Research foundation model za znanost o materijalima čiji su rezultati objavljeni 12. svibnja 2026. Model je predvidio tetragonalni TaP koji je eksperimentalno sintetiziran i izmjeren na 152 W/m/K, blizu silicija. MatterSim-v1 inferencija ubrzana je 3-5×, a novi MatterSim-MT multi-task model dodaje stress tensore, magnetske momente, Born effective charges i dielektrične matrice.

🟡 🤖 Modeli 12. svibnja 2026. · 2 min čitanja

vLLM: open-source inference engine zauzima prvo mjesto na Artificial Analysis ljestvici

Editorial illustration: open-source inference engine zauzima prvo mjesto na Artificial Analysis ljestvici

vLLM je open-source inference engine koji je zauzeo prvo mjesto na Artificial Analysis ljestvici za tri frontier modela — DeepSeek V3.2, MiniMax-M2.5 i Qwen 3.5 397B — kroz agresivnu kernel fuziju (33→10 launches po sloju, 1.28× speedup), custom EAGLE3 draft model za speculative decoding i optimizacije linearne attention putanje.

🟢 🤖 Modeli 12. svibnja 2026. · 2 min čitanja

arXiv:2605.07776: praćenje neizvjesnosti u LLM reasoning trace-ovima — pogreške predvidive iz prvih 100 tokena

Editorial illustration: 2605.07776: praćenje neizvjesnosti u LLM reasoning trace-ovima — pogreške predvidive iz prvih 100 tokena

Rad arXiv:2605.07776 je istraživanje praćenja neizvjesnosti u reasoning trace-ovima velikih jezičnih modela. Autori (Grünefeld, Højer, Mondorf, Plank, Rogers i suradnici) razvili su 'uncertainty trace profile' — kompaktni skup značajki koji predviđa točan ishod s AUROC 0.807, već iz prvih nekoliko stotina tokena (AUROC 0.801).

🟡 🤖 Modeli 11. svibnja 2026. · 2 min čitanja

arXiv:2605.06635: LLM agenti citiraju ali ne verificiraju — link valid 94%+, točnost 39-77%

Editorial illustration: 2605.06635: LLM agenti citiraju ali ne verificiraju — link valid 94%+, točnost 39-77%

Novo istraživanje testiralo je 14 LLM modela u deep research zadacima i otkrilo veliki jaz: linkovi su valjani u 94%+ slučajeva, ali faktografska točnost citata samo 39-77%. Ključni nalaz: točnost citata pada za 42% kad se broj alata povećava sa 2 na 150, što obara pretpostavku da više dohvaćanja znači bolju kvalitetu.

🟡 🤖 Modeli 11. svibnja 2026. · 2 min čitanja

arXiv:2605.07990: LLM tool-calling linearno reprezentiran — mean-difference vektor mijenja izbor 77-100%

Editorial illustration: 2605.07990: LLM tool-calling linearno reprezentiran — mean-difference vektor mijenja izbor 77-100%

Istraživači UCL-a, Holistic AI i Imperial Collegea otkrili su da LLM-ovi interno reprezentiraju odabir alata linearno. Mean-difference vektor — razlika prosječnih aktivacija između dva alata — dodan u aktivacije mijenja selekciju s 77-100% točnošću na 12 testiranih modela (270M-27B parametara), bez ikakvog fine-tuninga.

🟢 🤖 Modeli 11. svibnja 2026. · 2 min čitanja

arXiv:2605.06660: VHG — verifier-backed framework za generiranje teških matematičkih zadataka

Editorial illustration: 2605.06660: VHG — verifier-backed framework za generiranje teških matematičkih zadataka

VHG (Verifier-backed Hard problem Generation) framework rješava problem stvaranja valjanih, teških i originalnih matematičkih zadataka za LLM trening. Uvodi neovisni verifikator u setter-solver dualnost — three-party self-play jamči i valjanost i težinu zadatka. Testirano na integralnom računu, VHG značajno nadmašuje sve baseline metode.

🟢 🤖 Modeli 11. svibnja 2026. · 1 min čitanja

arXiv:2605.07925: Value induction kod LLM-ova — sve vrijednosti rastu sycophancy, čak i pozitivne

Editorial illustration: 2605.07925: Value induction kod LLM-ova — sve vrijednosti rastu sycophancy, čak i pozitivne

Value induction je post-training tehnika koja naglašava specifične vrijednosti (helpfulness, harmlessness, honesty). Studija u Findings of ACL 2026 pokazuje da indukcija pozitivnih vrijednosti pojačava sigurnost, ALI sve testirane vrijednosti povećavaju antropomorfni jezik i čine modele 'validating i sycophantic' bez obzira na to koja se vrijednost naglašava.

🟡 🤖 Modeli 9. svibnja 2026. · 2 min čitanja

Allen Institute: EMO — MoE jezični model s prirodnom semantičkom modularnošću iz podataka

Editorial ilustracija: dijagram MoE jezičnog modela s eksperima grupiranima po semantičkim domenama

EMO je novi MoE jezični model Allen Institutea s 1B aktivnih i 14B ukupnih parametara, treniran na 1 trilion tokena. Eksperti se sami organiziraju u semantičke domene — uz 25% aktivnih eksperata gubitak performansi je svega 1%.

🟡 🤖 Modeli 9. svibnja 2026. · 2 min čitanja

arXiv:2605.06638: ScaleLogic — RL compute slijedi power law u dubini rezoniranja

Editorial ilustracija: graf log-log skale s pravcem koji povezuje compute i dubinu rezoniranja

ScaleLogic je sintetički okvir koji pokazuje da reinforcement learning compute potreban za long-horizon rezoniranje slijedi zakon potencije s dubinom: T ∝ D^γ (R² > 0,99). Eksponent γ se kreće od 1,04 do 2,60 ovisno o izražajnosti logike, a izražajniji trening daje do +10,66 točaka boljih downstream rezultata.

🔴 🤖 Modeli 8. svibnja 2026. · 2 min čitanja

OpenAI: tri nova realtime voice modela u API-ju s rezoniranjem i prevođenjem

Editorial illustration: tri nova realtime voice modela u API-ju s rezoniranjem i prevođenjem

OpenAI je 7. svibnja 2026. predstavio tri nova realtime voice modela u API-ju: GPT-Realtime-2 s GPT-5-class rezoniranjem i kontekstom od 128 000 tokena, GPT-Realtime-Translate koji prevodi sa 70+ ulaznih u 13 izlaznih jezika, te GPT-Realtime-Whisper za live transkripciju govora.

🟡 🤖 Modeli 8. svibnja 2026. · 2 min čitanja

Google: Gemini 3.1 Flash-Lite ulazi u opću dostupnost

Editorial illustration: Gemini 3.1 Flash-Lite ulazi u opću dostupnost

Gemini 3.1 Flash-Lite je od 7. svibnja 2026. općenito dostupan kroz Gemini API kao stabilna produkcijska krajnja točka. Model je optimiziran za brzinu, opseg i troškovnu učinkovitost, a preview verzija prestaje s radom 25. svibnja 2026.

🟡 🤖 Modeli 7. svibnja 2026. · 2 min čitanja

arXiv:2605.03195: Terminus-4B — 4 milijarde parametara za terminal execution izjednačava Claude Opus i GPT-5.3-Codex na SWE-Bench Pro uz ~30 % niže tokene glavnog agenta

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4B je 4-milijardni Qwen3 fine-tune specijaliziran za terminal execution u agentskim sustavima — na SWE-Bench Pro benchmarku izjednačava i ponekad nadmašuje Claude Sonnet/Opus i GPT-5.3-Codex baseline, a smanjuje potrošnju tokena glavnog agenta do otprilike 30 % izolacijom verbose build/test logova u subagent kontekstu.

🟡 🤖 Modeli 7. svibnja 2026. · 2 min čitanja

arXiv:2605.04908: Gosset s kuriranom farmaceutskom bazom nadmašuje frontier LLM-ove 3,2 puta

Editorial illustration: 2605.04908: Gosset s kuriranom farmaceutskom bazom nadmašuje frontier LLM-ove 3,2 puta

Gosset je specijalizirana AI platforma s kuriranim farmaceutskim podacima koja je u usporedbi s četiri frontier sustava vratila 3,2 puta više verificiranih lijekova po upitu, uz 100% preciznost i potpun recall na deset niše onkoloških i imunoloških meta.

🟡 🤖 Modeli 7. svibnja 2026. · 2 min čitanja

Google: Gemini API dobiva multimodalno File Search pretraživanje slika i breaking change u Interactions API-ju

Editorial illustration: Gemini API dobiva multimodalno File Search pretraživanje slika i breaking change u Interactions API-ju

Google je proširio Gemini File Search na multimodalno pretraživanje slika koristeći gemini-embedding-2 model, s media_id u grounding metadati za vizualne citacije. Istovremeno najavljuje breaking change u Interactions API-ju gdje outputs postaje steps, s novim defaultom 20.05.2026. i uklanjanjem stare scheme 06.06.2026.

🔴 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

OpenAI: GPT-5.5 Instant postaje novi default model u ChatGPT-u s manje halucinacija

Editorial illustration: ChatGPT sučelje s oznakom GPT-5.5 Instant kao novog default modela na plavoj pozadini

GPT-5.5 Instant je novi default model ChatGPT-a koji OpenAI uvodi 5. svibnja 2026. Model donosi pametnije i preciznije odgovore, smanjeni broj halucinacija te poboljšanu personalizaciju, a istovremeno je objavljen i prateći system card.

🟡 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

arXiv:2605.03871: EvoLM — jezični modeli koji se sami poboljšavaju bez vanjske supervizije

Editorial illustration: dva jezična modela u krugu povratne sprege koji razmjenjuju ocjene i poboljšanja bez vanjskog supervizora

EvoLM je post-training metoda koja eliminira vanjsku superviziju — Qwen3-8B rubric generator nadmašuje GPT-4.1 na RewardBench-2 za 25,7% i SkyWork-RM za 16%, dok trenirana policy doseže 69,3% na OLMo3-Adapt benchmarku.

🟡 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

Google: Gemini API File Search proširen na multimodalnu pretragu slika i teksta

Editorial illustration: Gemini API kombinira slike i tekst u zajedničku semantičku pretragu kroz embedding model.

Google je proširio File Search u Gemini API-ju na multimodalnu pretragu, omogućivši nativno embeddanje i dohvat slika uz tekstualne dokumente kroz model gemini-embedding-2. Dodana su dva nova grounding polja te event-driven webhook podrška za Batch API.

🟡 🤖 Modeli 6. svibnja 2026. · 2 min čitanja

Microsoft Research: DroidSpeak dijeli KV cache između fine-tuned LLM varijanti za 4× veći throughput

Editorial illustration: dijagram dijeljenja KV cachea između više fine-tuned varijanti istog baznog LLM-a u podatkovnom centru.

Microsoft Research je na NSDI 2026 prezentirao DroidSpeak, sustav koji dijeli KV cache između arhitekturno identičnih fine-tuned LLM varijanti i postiže do 4× viši throughput uz minimalni pad kvalitete u enterprise scenarijima s desecima domenskih modela.

🟡 🤖 Modeli 5. svibnja 2026. · 3 min čitanja

ArXiv AgentFloor: mali open-weight modeli (0,27B-32B) zadovoljavaju kratkoročne agentne zadatke, GPT-5 zadržava prednost samo u dugoročnom planiranju

Editorial ilustracija: ljestve sposobnosti s modelima različitih veličina na različitim razinama, simbolika tool-use evaluacije

Ranit Karmakar i Jayita Chatterjee predstavili su AgentFloor — determinističku mrežu od 30 zadataka organiziranu u šest razina sposobnosti, na kojoj su evaluirali 16 open-weight modela u rasponu od 0,27 do 32 milijardi parametara plus GPT-5. Zaključak: manji modeli su dovoljni za kratkoročne, strukturirane agentne zadatke, dok frontier modeli zadržavaju jasnu prednost samo na dugoročnom planiranju s ograničenjima.

🟡 🤖 Modeli 5. svibnja 2026. · 3 min čitanja

ArXiv Token Arena: kontinuirani benchmark koji ujedinjuje energiju i kogniciju, otkriva 6,2× razliku u jouleima po točnom odgovoru između endpointa

Editorial ilustracija: vaga koja mjeri energiju i kogniciju AI inference endpointa, simbolika multi-dimenzionalnog benchmarka

Yuxuan Gao, Megan Wang i Yi Ling Yu objavili su 1. svibnja 2026. Token Arenu — neprekidnu benchmarking platformu koja evaluira AI inference na razini krajnjih točaka (78 endpointa, 12 model familija). Otkrivaju da isti model na različitim endpointima može varirati do 12,5 bodova na math/code benchmarku, do reda veličine u tail latenciji i do faktora 6,2 u jouleima po točnom odgovoru. Platforma objavljuje rezultate pod CC BY 4.0 licencom.

🟡 🤖 Modeli 5. svibnja 2026. · 2 min čitanja

NIST CAISI: DeepSeek V4 Pro je najsposobniji kineski AI model do sada, ali zaostaje 8 mjeseci za američkim frontierom

Editorial ilustracija: AI model na vremenskoj liniji koja označava 8-mjesečno zaostajanje, simbolika nezavisne evaluacije

Američki Center for AI Standards and Innovation (CAISI) pri NIST-u objavio je 1. svibnja 2026. nezavisnu evaluaciju DeepSeek V4 Pro modela. Zaključak: ovo je najsposobniji evaluirani PRC AI model do sada, ali u agregatnim mogućnostima zaostaje oko 8 mjeseci za američkim frontierom. Evaluacija je provedena pomoću nepubliciranih benchmarka u pet domena: kibernetička sigurnost, softversko inženjerstvo, prirodne znanosti, apstraktno zaključivanje i matematika.

🟢 🤖 Modeli 5. svibnja 2026. · 2 min čitanja

arXiv:2605.02572: Dugi horizonti destabiliziraju LLM trening — ICML 2026 papir nudi 'horizon generalization' kao rješenje

Editorial illustration: napuknuta horizontalna linija s neuralnim čvorovima i tokovima podataka koji konvergiraju

ICML 2026 prihvaćen rad empirijski dokazuje da povećanje duljine task horizonta uzrokuje ozbiljnu nestabilnost LLM treninga zbog problema exploration i credit assignment. Rješenje koje predlažu: skraćivanje horizonta tijekom treninga uz eksplicitan 'horizon generalization' mehanizam na inferenci. Rad postavlja prva empirijska pravila za skaliranje task horizonta kod frontier modela.

🟢 🤖 Modeli 4. svibnja 2026. · 2 min čitanja

AdaMeZO: fino ugađanje LLM-ova Adam-stilom bez pohrane momenata u GPU memoriji

Editorial illustration: AdaMeZO: fino ugađanje LLM-ova Adam-stilom bez pohrane momenata u GPU memoriji

AdaMeZO je optimizator nultog reda koji kombinira prednosti Adam algoritma s memorijskom učinkovitošću MeZO pristupa za fino ugađanje velikih jezičnih modela. Koristi samo prosljeđivanja unaprijed i postiže do 70% manje prolaza u odnosu na MeZO, uz poboljšanu konvergenciju.

🟢 🤖 Modeli 4. svibnja 2026. · 2 min čitanja

BWLA: 1-bitna kvantizacija LLM-ova s 3,26× ubrzanjem i 70% boljim rezultatima (ACL 2026)

Editorial illustration: BWLA: 1-bitna kvantizacija LLM-ova s 3,26× ubrzanjem i 70% boljim rezultatima (ACL 2026)

BWLA je novi okvir za post-trenažnu kvantizaciju velikih jezičnih modela koji prvi put postiže istovremenu 1-bitnu preciznost težina i nisko-bitne aktivacije bez značajnog gubitka točnosti. Na modelu Qwen3-32B postiže perpleksiju 11,92 i ubrzanje od 3,26× u odnosu na dosadašnje metode.

🟡 🤖 Modeli 2. svibnja 2026. · 3 min čitanja

Latent-GRPO: stabilna RL optimizacija za latent reasoning — 7,86 boda na GSM8K-Aug i 4,27 boda na AIME uz 3-4× kraće reasoning chain-ove

Editorial illustration: kompresija mreže rezoniranja u sažeti latentni prostor

Istraživači predstavljaju Latent-GRPO, stabilizirani RL pristup za latent reasoning gdje se reasoning koraci komprimiraju u kontinuirane reprezentacije. Identificiraju tri fundamentalna problema direktnog GRPO u latent prostoru — invalid latent states, misalignment između reward signala i token update-a, te invalid averaged states — i rješavaju ih kombinacijom invalid-sample advantage maskinga, one-sided noise samplinga i optimal correct-path first-token selekcije. Rezultati: +7,86 Pass@1 na GSM8K-Aug i +4,27 boda na AIME, uz 3-4× kraće reasoning chain-ove.

🟡 🤖 Modeli 2. svibnja 2026. · 2 min čitanja

GitHub povlači GPT-5.2 i GPT-5.2-Codex iz Copilota 1. lipnja 2026. — migracija na GPT-5.5 i GPT-5.3-Codex

Editorial illustration: GitHub Copilot dashboard s novim modelom koji zamjenjuje stari

GitHub najavljuje povlačenje modela GPT-5.2 i GPT-5.2-Codex iz svih Copilot iskustava 1. lipnja 2026. Korisnici Chat-a, inline edita, ask i agent modusa te code completion prelaze na GPT-5.5, dok Codex korisnici prelaze na GPT-5.3-Codex. Iznimka je Copilot Code Review gdje GPT-5.2-Codex ostaje dostupan. Enterprise administratori moraju ručno omogućiti nove modele u model policies prije roka.

🟡 🤖 Modeli 2. svibnja 2026. · 2 min čitanja

NIST CAISI evaluacija DeepSeek V4 Pro: 8 mjeseci zaostatka za frontier US modelima na 9 benchmarka u 5 domena

Editorial illustration: vaga koja uspoređuje AI modele iznad geopolitičke karte

Centar za AI standarde i inovacije pri NIST-u (CAISI) objavio je neovisnu evaluaciju kineskog modela DeepSeek V4 Pro na 9 benchmarka u 5 domena (kibernetika, software engineering, prirodne znanosti, abstract reasoning, matematika). Ključni nalaz: V4 zaostaje 8 mjeseci za frontier američkim modelima, posebno na rezoniranju i agentskim zadacima koje DeepSeek nije uključio u vlastiti tehnički izvještaj. Cijena upotrebe je niža od GPT-5.4 mini u 5 od 7 testova.

🟢 🤖 Modeli 2. svibnja 2026. · 2 min čitanja

KellyBench: AI agenti upravljali kladioničarskim bankrollom u Premier Ligi — svi vodeći modeli izgubili novac

Editorial illustration: nogometni stadion s digitalnom analizom kvota

KellyBench je nova mjera za testiranje sekvencijalnog odlučivanja: AI agenti upravljaju kladioničarskim bankrollom kroz cijelu sezonu Premier lige 2023/24, koristeći statistike, postave i tržišne kvote. Svi testirani vodeći modeli izgubili su novac, a Claude Opus 4.6 postigao je 26,5% na ekspertskoj rubrici za sofisticiranost strategije.

🔴 🤖 Modeli 1. svibnja 2026. · 3 min čitanja

PyTorch SMG: disaggregacija CPU od GPU u LLM serving-u donosi 3.5× output throughput za Llama 3.3 70B FP8, već u produkciji na Google Cloudu, Oracleu i Alibabi

Editorial illustration: server rack s GPU-ima i odvojenim CPU-gateway slojem koji ih spaja gRPC mrežom

LightSeek Foundation je 30. travnja 2026. na PyTorch blogu predstavila Shepherd Model Gateway (SMG), Rust gateway koji premješta CPU-bound zadatke (tokenizacija, MCP orkestracija, chat history, multimodal preprocessing) iz GPU procesa u zaseban gRPC sloj. Llama 3.3 70B FP8 postiže 1,150 vs 327 output tokena/s (3.5× throughput), a rješenje je već u produkciji na Google Cloudu, Oracle Cloudu, Alibaba Cloudu i TogetherAI.

🟡 🤖 Modeli 1. svibnja 2026. · 2 min čitanja

AstaBench proljeće 2026.: Claude Opus 4.7 vodi s 58% u znanstvenom AI benchmarku, GPT-5.5 jeftiniji upola

Editorial illustration: leaderboard tablica s grafovima performansi AI modela na znanstvenim zadacima, neutralna laboratorijska estetika

Allen Institute objavio je ažurirani AstaBench leaderboard s 2.400 problema za AI agente u znanosti. Claude Opus 4.7 vodi s 58,0%, dok GPT-5.5 postiže 52,9% uz upola manji trošak po problemu. Ključni nalaz: dobri rezultati na pojedinim zadacima ne znače automatski robusni end-to-end znanstveni rad.

🟢 🤖 Modeli 1. svibnja 2026. · 2 min čitanja

Anthropic zatvara 1M context beta za Sonnet 4.5 i Sonnet 4 — migracija na 4.6 obavezna

Editorial illustration: migracijска strelica između dva API versionska bloka, minimalistička tehnička estetika

Anthropic je 30. travnja 2026. zatvorio beta header za milijunski kontekstualni prozor na Claude Sonnet 4.5 i Sonnet 4. Zahtjevi koji prelaze 200 tisuća tokena sada vraćaju grešku. Korisnici moraju migrirati na Sonnet 4.6 ili Opus 4.6 gdje je 1M kontekst dostupan bez beta headera.

Pogledaj cijelu arhivu →