Četvrtak, 30. travnja 2026.

15 vijesti — 🔴 2 kritično , 🟡 12 važno , 🟢 1 zanimljivo

🤖 Modeli (4)

🔴 🤖 Modeli 30. travnja 2026. · 2 min čitanja

BioMysteryBench: Claude Mythos Preview rješava bioinformatičke probleme koje ni stručnjaci ne mogu, Opus 4.6 postiže 77.4 % na human-solvable zadacima

Editorial illustration: AI agent koji analizira sekvencirane RNA-seq podatke uz znanstvenu opremu

Anthropic je 29. travnja 2026. objavio BioMysteryBench, evaluacijski okvir od 99 stručnih bioinformatičkih zadataka s objektivnom ground truth iz eksperimentalnih podataka. Claude Opus 4.6 postiže oko 77.4 % točnosti na 76 problema rješivih ljudima i 23.5 % na 23 superhuman zadataka, dok Mythos Preview rješava neke probleme koje panel ljudskih stručnjaka nije mogao — istraživači to opisuju kao watershed moment za AI u bioznanosti.

🔴 🤖 Modeli 30. travnja 2026. · 2 min čitanja

NVIDIA Nemotron 3 Nano Omni: 30B-A3B MoE multimodalni model s 9× većim throughputom za AI agente

Editorial illustration: multimodalni AI model koji obrađuje viziju, audio i tekst u jedinstvenoj arhitekturi

NVIDIA je 28. travnja 2026. predstavila Nemotron 3 Nano Omni, open-source 30B-A3B hybrid mixture-of-experts model koji ujedinjuje vid, audio, jezik, video, dokumente i GUI snimke u jednoj arhitekturi s 256K kontekstom. Throughput je 9× veći od ostalih open omni modela uz istu interaktivnost, model vodi šest leaderboarda za document, video i audio razumijevanje. Dostupan je na Hugging Faceu, OpenRouteru, build.nvidia.com i 25+ partnerskih platformi, s ranim adopterima Palantir, Foxconn i Eka Care.

🟡 🤖 Modeli 30. travnja 2026. · 2 min čitanja

ArXiv: standardni transformeri s Chain-of-Thought ne mogu rezonirati izvan TC^0 kompleksnosti — signpost tokeni omogućuju length-generalizable Turing simulaciju

Editorial illustration: transformer arhitektura s prekidom u Chain-of-Thought lancu i signpost simbolima

Novi ArXiv preprint Krausa, Sarrofa, Yaa, Kollera i Hahna pokazuje da standardni transformeri s Chain-of-Thought reasoningom ne mogu rješavati probleme izvan TC^0 kompleksnosti pod stroženom zahtjevom length-generalizable učenja. Empirijski uspjeh CoT-a ne implicira teorijsku Turing kompletnost u praksi. Predloženo rješenje — dinamičko proširenje vokabulara plus signpost tokeni — omogućuje length-generalizable simulaciju Turing strojeva s linearnim CoT overheadom.

🟡 🤖 Modeli 30. travnja 2026. · 2 min čitanja

PyTorch AutoSP: compiler-bazirani alat automatski pretvara training kod u sequence-parallel za 100k+ token kontekste

Editorial illustration: tokeni distribucija preko više GPU jezgri s compiler simbolom

PyTorch je 29. travnja 2026. objavio AutoSP — compiler-bazirani alat unutar DeepSpeed/DeepCompile koji automatski pretvara standardni single-GPU transformer training kod u sequence-parallel varijantu. Eliminira potrebu za ručnim implementiranjem token partitioninga i komunikacijskih collective operacija za treniranje LLM-ova s 100k+ token kontekstom. Razvili ga UIUC SSAIL Lab, Anyscale i Snowflake.

📦 Open Source (1)

🟢 📦 Open Source 30. travnja 2026. · 3 min čitanja

IBM Granite 4.1: open-source obitelj 3B/8B/30B Apache 2.0 modela trenirana na 15T tokena pokazuje da gusti 8B model match-a 32B MoE

Editorial illustration: granitni blokovi s otvorenom knjigom kao simbolom open-weights licence

IBM je 29. travnja 2026. na HuggingFace blogu objavio detalje izgradnje Granite 4.1 obitelji modela — 3B, 8B i 30B dense varijante pod Apache 2.0 licencom. Treniran na ~15T tokena kroz 5-faznu pipeline strategiju, s 4-faznim RL-om koji koristi GRPO+DAPO loss. Granite 4.1-8B Instruct match-a ili premašuje prethodni Granite 4.0-H-Small (32B-A9B MoE) na većini benchmarka — pokazujući da gusti modeli dosežu MoE kvalitetu pri istom aktivacijskom budžetu.

🤝 Agenti (5)

🟡 🤝 Agenti 30. travnja 2026. · 2 min čitanja

ArXiv Odysseys: realistic web agents benchmark CMU-a otkriva da SOTA frontier modeli postižu 44.5% uspjeha i 1.15% Trajectory Efficiency na long-horizon zadacima

Editorial illustration: web stranice povezane u dugu mrežu zadataka s ocjenjivačkim rubrikama

CMU istraživači Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried i Ruslan Salakhutdinov objavili su 27. travnja 2026. ArXiv preprint Odysseys — benchmark od 200 long-horizon web zadataka iz autentičnih browsing sesija na živom internetu. Rubric-based evaluacija (prosjek 6.1 rubrika po zadatku) pokazuje da najjači frontier modeli postižu samo 44.5% success rate i 1.15% Trajectory Efficiency, otkrivajući ogromne nedostatke trenutnih web agenata.

🟡 🤝 Agenti 30. travnja 2026. · 2 min čitanja

AWS Bedrock AgentCore: serverless MCP proxy s IAM, OAuth 2.0 JWT i CloudWatch observability za enterprise governance

Editorial illustration: serverless arhitektura s proxy slojem između agenta i alata

AWS je 29. travnja 2026. objavio referentnu arhitekturu za deployment custom MCP proxy-ja kao serverless workloada na Amazon Bedrock AgentCore Runtime-u. Proxy se postavlja između AI agenata i upstream MCP servera te omogućava injektiranje governance kontrola — validaciju ulaza, redakciju PII, audit logging i rate limiting — bez modificiranja postojećih sustava. Arhitektura koristi FastMCP framework za dinamičko otkrivanje alata, podržava IAM/SigV4 i OAuth 2.0 JWT autentifikaciju te integrira se s CloudWatch i OpenTelemetry.

🟡 🤝 Agenti 30. travnja 2026. · 2 min čitanja

AWS Bedrock AgentCore Memory: tri obrasca za dugoročnu memoriju agenata na razini namespacea uz IAM access control

Editorial illustration: hijerarhijska memorija agenata s namespace pregradama i ključem za pristup

AWS je 29. travnja 2026. objavio referentne arhitekturalne obrasce za organizaciju dugoročne memorije agenata unutar Bedrock AgentCore Memory servisa. Tri ključna namespace patterna pokrivaju različite use caseove: Actor-Scoped za preferencije i činjenice, Session-Scoped za sažetke razgovora i Episodic with Reflection Hierarchy za generalizaciju iskustva između sesija. IAM condition keys omogućuju strogi access control na razini namespacea.

🟡 🤝 Agenti 30. travnja 2026. · 2 min čitanja

LangChain harness profili za Deep Agents: GPT-5.3 Codex skoči s 33 % na 53 % na tau2-benchu, Opus 4.7 s 43 % na 53 %

Editorial illustration: agent okvir s zamjenjivim profilima za različite jezične modele

LangChain je 29. travnja 2026. predstavio sustav harness profila za Deep Agents koji omogućava istom kodu rad s Anthropic, OpenAI i Google modelima bez izmjena. Profil automatski primjenjuje model-specifične system promptove, alate i middleware. Na tau2-benchu GPT-5.3 Codex je s 33 % točnosti porastao na 53 %, a Claude Opus 4.7 s 43 % na 53 % — istraživači zaključuju da jedinstveni harness ne može biti optimalan za svaki model.

🟡 🤝 Agenti 30. travnja 2026. · 2 min čitanja

Mistral Medium 3.5 + Vibe: 128B dense model otvorenih težina i async cloud coding agenti za $1.5/$7.5 po milijunu tokena

Editorial illustration: cloud platforma s paralelnim coding agentima i async sandbox kontejnerima

Mistral AI predstavio je Mistral Medium 3.5 — gusti 128-milijardni model s 256k kontekstom, 77.6% na SWE-Bench Verified i otvorenim težinama pod modificiranim MIT licencom. Uz model dolazi Vibe, async cloud platforma za coding agente koja se pokreće iz CLI-ja ili Le Chata, te Le Chat Work mode preview za enterprise workflowove. Model košta $1.5 ulaz / $7.5 izlaz po milijunu tokena.

🏥 U praksi (3)

🟡 🏥 U praksi 30. travnja 2026. · 2 min čitanja

Anthropic Claude for Creative Work: konektori za Blender, 50+ Adobe Creative Cloud alata, Autodesk Fusion, Ableton, SketchUp i Splice

Editorial illustration: AI asistent koji povezuje 3D modeliranje, audio produkciju i grafički dizajn

Anthropic je 28. travnja 2026. najavio Claude konektore za profesionalni kreativni softver u suradnji s Blenderom, Autodesk Fusionom, Adobeom (50+ Creative Cloud alata), Abletonom, Spliceom, Affinity i Canvom, Resolume Arenom i SketchUpom. Claude može pisati Python skripte za Blender, kontrolirati Resolume u stvarnom vremenu za VJ-eve, automatizirati batch obradu aseta u Affinityju te pretraživati Splice katalog uzoraka. Anthropic se ujedno pridružio Blender Development Fundu kao patron, a tri akademske institucije — RISD, Ringling College i Goldsmiths — pokreću kolegije u kojima studenti uče raditi s Claudeom.

🟡 🏥 U praksi 30. travnja 2026. · 2 min čitanja

Google ERA: AI sustav za znanstvena istraživanja postiže CDC top za prognozu hospitalizacija, rješava neriješen kozmološki problem i prati CO2 svakih 10 minuta

Editorial illustration: znanstveni alati i AI mreža povezani u zvjezdanu konstelaciju domena

Google Research je 29. travnja 2026. predstavio ERA (Empirical Research Assistance) — interni AI sustav koji kombinira LLM-ove s računalnim alatima za ubrzanje znanstvenih istraživanja. Četiri konkretna rezultata u različitim domenama: vrh CDC ljestvice za prognozu hospitalizacija COVID/flu/RSV, šest novih rješenja za gravitacijsko zračenje kozmičkih struna, neuronska mreža koja prati atmosferski CO2 svakih 10 minuta i interpretabilni neuralni sklopovi zebrafish-a.

🟡 🏥 U praksi 30. travnja 2026. · 3 min čitanja

EvalEval Coalition: AI evaluacija postaje novi compute bottleneck — GAIA single run $2.829, HAL leaderboard $40.000, akademski auditori udaraju u budžetski zid prije tehničkog

Editorial illustration: vaga koja preteže prema evaluacijskim troškovima u odnosu na trening troškove

EvalEval Coalition (Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen) objavila je 29. travnja 2026. analizu na HuggingFace blogu koja pokazuje kako su troškovi evaluacije AI modela eksplodirali. Pojedinačan GAIA run košta $2.829, HAL leaderboard $40.000 (k=8 reliability $320.000), PaperBench oko $9.500 po agentu. Statički benchmarci se kompresiraju 100-200×, agentski samo 2-3.5× — accountability barrier za nezavisne auditore.

💬 Zajednica (1)

🟡 💬 Zajednica 30. travnja 2026. · 2 min čitanja

CNCF State of AI in Projects: Claude Code i GitHub Copilot dominiraju, dvije trećine projekata bez formalne AI politike

Editorial illustration: vizualizacija ankete suradnika cloud-native projekata o korištenju AI alata

CNCF TAG Developer Experience objavio je 29. travnja 2026. preliminarne rezultate ankete o korištenju AI alata među 133 suradnika iz gotovo 100 cloud-native open-source projekata. Claude Code i GitHub Copilot pojavljuju se kao tržišni lideri, gotovo 50 % suradnika koristi AI integriran u IDE ili CLI, a samo 10 % se još oslanja na osnovne chatbotove s ručnim copy-pasteom. Ključni nalaz: 67 % projekata nema formalnu AI politiku, manje od 4 % zabranjuje AI, a više od polovice smatra da AI doprinosi trebaju obaveznu objavu.

🛡️ Sigurnost (1)

🟡 🛡️ Sigurnost 30. travnja 2026. · 3 min čitanja

ArXiv: training-free guardrail za jailbreakove na drugim jezicima postiže AUC 0.99 na curated benchmarcima ali pada na 0.60-0.70 pri distribution shiftu

Editorial illustration: prompt prevodi se kroz jezike i prolazi kroz semantičku rešetku detekcije

Tim Alanove, Minka, Sadiekh i Kokuykina objavio je 28. travnja 2026. ArXiv preprint koji predstavlja training-free obranu od cross-lingual jailbreakova preko semantic codebookova. Pristup uspoređuje multilingual embeddinge zahtjeva s fiksnom engleskom bazom poznatih jailbreak prompt-ova. Na curated benchmarcima postiže AUC do 0.99, ali na distribution shift heterogenim napadima pada na AUC 0.60-0.70 — pokazuje granicu pristupa.

← Prethodni dan Sljedeći dan →