Četvrtak, 30. travnja 2026.

15 vijesti — 🔴 2 kritično , 🟡 12 važno , 🟢 1 zanimljivo

← Prethodni dan Sljedeći dan →

🤖 Modeli (4)

🔴 🤖 Modeli 30. travnja 2026. · 2 min čitanja

BioMysteryBench: Claude Mythos Preview rješava bioinformatičke probleme koje ni stručnjaci ne mogu, Opus 4.6 postiže 77.4 % na human-solvable zadacima

Editorial illustration: AI agent koji analizira sekvencirane RNA-seq podatke uz znanstvenu opremu

Anthropic je 29. travnja 2026. objavio BioMysteryBench, evaluacijski okvir od 99 stručnih bioinformatičkih zadataka s objektivnom ground truth iz eksperimentalnih podataka. Claude Opus 4.6 postiže oko 77.4 % točnosti na 76 problema rješivih ljudima i 23.5 % na 23 superhuman zadataka, dok Mythos Preview rješava neke probleme koje panel ljudskih stručnjaka nije mogao — istraživači to opisuju kao watershed moment za AI u bioznanosti.

🔴 🤖 Modeli 30. travnja 2026. · 2 min čitanja

NVIDIA Nemotron 3 Nano Omni: 30B-A3B MoE multimodalni model s 9× većim throughputom za AI agente

Editorial illustration: multimodalni AI model koji obrađuje viziju, audio i tekst u jedinstvenoj arhitekturi

NVIDIA je 28. travnja 2026. predstavila Nemotron 3 Nano Omni, open-source 30B-A3B hybrid mixture-of-experts model koji ujedinjuje vid, audio, jezik, video, dokumente i GUI snimke u jednoj arhitekturi s 256K kontekstom. Throughput je 9× veći od ostalih open omni modela uz istu interaktivnost, model vodi šest leaderboarda za document, video i audio razumijevanje. Dostupan je na Hugging Faceu, OpenRouteru, build.nvidia.com i 25+ partnerskih platformi, s ranim adopterima Palantir, Foxconn i Eka Care.

🟡 🤖 Modeli 30. travnja 2026. · 2 min čitanja

ArXiv: standardni transformeri s Chain-of-Thought ne mogu rezonirati izvan TC^0 kompleksnosti — signpost tokeni omogućuju length-generalizable Turing simulaciju

Editorial illustration: transformer arhitektura s prekidom u Chain-of-Thought lancu i signpost simbolima

Novi ArXiv preprint Krausa, Sarrofa, Yaa, Kollera i Hahna pokazuje da standardni transformeri s Chain-of-Thought reasoningom ne mogu rješavati probleme izvan TC^0 kompleksnosti pod stroženom zahtjevom length-generalizable učenja. Empirijski uspjeh CoT-a ne implicira teorijsku Turing kompletnost u praksi. Predloženo rješenje — dinamičko proširenje vokabulara plus signpost tokeni — omogućuje length-generalizable simulaciju Turing strojeva s linearnim CoT overheadom.

🟡 🤖 Modeli 30. travnja 2026. · 2 min čitanja

PyTorch AutoSP: compiler-bazirani alat automatski pretvara training kod u sequence-parallel za 100k+ token kontekste

Editorial illustration: tokeni distribucija preko više GPU jezgri s compiler simbolom

PyTorch je 29. travnja 2026. objavio AutoSP — compiler-bazirani alat unutar DeepSpeed/DeepCompile koji automatski pretvara standardni single-GPU transformer training kod u sequence-parallel varijantu. Eliminira potrebu za ručnim implementiranjem token partitioninga i komunikacijskih collective operacija za treniranje LLM-ova s 100k+ token kontekstom. Razvili ga UIUC SSAIL Lab, Anyscale i Snowflake.

📦 Open Source (1)

🤝 Agenti (5)

🟡 🤝 Agenti 30. travnja 2026. · 2 min čitanja

ArXiv Odysseys: realistic web agents benchmark CMU-a otkriva da SOTA frontier modeli postižu 44.5% uspjeha i 1.15% Trajectory Efficiency na long-horizon zadacima

Editorial illustration: web stranice povezane u dugu mrežu zadataka s ocjenjivačkim rubrikama

CMU istraživači Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried i Ruslan Salakhutdinov objavili su 27. travnja 2026. ArXiv preprint Odysseys — benchmark od 200 long-horizon web zadataka iz autentičnih browsing sesija na živom internetu. Rubric-based evaluacija (prosjek 6.1 rubrika po zadatku) pokazuje da najjači frontier modeli postižu samo 44.5% success rate i 1.15% Trajectory Efficiency, otkrivajući ogromne nedostatke trenutnih web agenata.

🟡 🤝 Agenti 30. travnja 2026. · 2 min čitanja

AWS Bedrock AgentCore: serverless MCP proxy s IAM, OAuth 2.0 JWT i CloudWatch observability za enterprise governance

Editorial illustration: serverless arhitektura s proxy slojem između agenta i alata

AWS je 29. travnja 2026. objavio referentnu arhitekturu za deployment custom MCP proxy-ja kao serverless workloada na Amazon Bedrock AgentCore Runtime-u. Proxy se postavlja između AI agenata i upstream MCP servera te omogućava injektiranje governance kontrola — validaciju ulaza, redakciju PII, audit logging i rate limiting — bez modificiranja postojećih sustava. Arhitektura koristi FastMCP framework za dinamičko otkrivanje alata, podržava IAM/SigV4 i OAuth 2.0 JWT autentifikaciju te integrira se s CloudWatch i OpenTelemetry.

🟡 🤝 Agenti 30. travnja 2026. · 2 min čitanja

AWS Bedrock AgentCore Memory: tri obrasca za dugoročnu memoriju agenata na razini namespacea uz IAM access control

Editorial illustration: hijerarhijska memorija agenata s namespace pregradama i ključem za pristup

AWS je 29. travnja 2026. objavio referentne arhitekturalne obrasce za organizaciju dugoročne memorije agenata unutar Bedrock AgentCore Memory servisa. Tri ključna namespace patterna pokrivaju različite use caseove: Actor-Scoped za preferencije i činjenice, Session-Scoped za sažetke razgovora i Episodic with Reflection Hierarchy za generalizaciju iskustva između sesija. IAM condition keys omogućuju strogi access control na razini namespacea.

🟡 🤝 Agenti 30. travnja 2026. · 2 min čitanja

LangChain harness profili za Deep Agents: GPT-5.3 Codex skoči s 33 % na 53 % na tau2-benchu, Opus 4.7 s 43 % na 53 %

Editorial illustration: agent okvir s zamjenjivim profilima za različite jezične modele

LangChain je 29. travnja 2026. predstavio sustav harness profila za Deep Agents koji omogućava istom kodu rad s Anthropic, OpenAI i Google modelima bez izmjena. Profil automatski primjenjuje model-specifične system promptove, alate i middleware. Na tau2-benchu GPT-5.3 Codex je s 33 % točnosti porastao na 53 %, a Claude Opus 4.7 s 43 % na 53 % — istraživači zaključuju da jedinstveni harness ne može biti optimalan za svaki model.

🟡 🤝 Agenti 30. travnja 2026. · 2 min čitanja

Mistral Medium 3.5 + Vibe: 128B dense model otvorenih težina i async cloud coding agenti za $1.5/$7.5 po milijunu tokena

Editorial illustration: cloud platforma s paralelnim coding agentima i async sandbox kontejnerima

Mistral AI predstavio je Mistral Medium 3.5 — gusti 128-milijardni model s 256k kontekstom, 77.6% na SWE-Bench Verified i otvorenim težinama pod modificiranim MIT licencom. Uz model dolazi Vibe, async cloud platforma za coding agente koja se pokreće iz CLI-ja ili Le Chata, te Le Chat Work mode preview za enterprise workflowove. Model košta $1.5 ulaz / $7.5 izlaz po milijunu tokena.

🏥 U praksi (3)

🟡 🏥 U praksi 30. travnja 2026. · 2 min čitanja

Anthropic Claude for Creative Work: konektori za Blender, 50+ Adobe Creative Cloud alata, Autodesk Fusion, Ableton, SketchUp i Splice

Editorial illustration: AI asistent koji povezuje 3D modeliranje, audio produkciju i grafički dizajn

Anthropic je 28. travnja 2026. najavio Claude konektore za profesionalni kreativni softver u suradnji s Blenderom, Autodesk Fusionom, Adobeom (50+ Creative Cloud alata), Abletonom, Spliceom, Affinity i Canvom, Resolume Arenom i SketchUpom. Claude može pisati Python skripte za Blender, kontrolirati Resolume u stvarnom vremenu za VJ-eve, automatizirati batch obradu aseta u Affinityju te pretraživati Splice katalog uzoraka. Anthropic se ujedno pridružio Blender Development Fundu kao patron, a tri akademske institucije — RISD, Ringling College i Goldsmiths — pokreću kolegije u kojima studenti uče raditi s Claudeom.

🟡 🏥 U praksi 30. travnja 2026. · 2 min čitanja

Google ERA: AI sustav za znanstvena istraživanja postiže CDC top za prognozu hospitalizacija, rješava neriješen kozmološki problem i prati CO2 svakih 10 minuta

Editorial illustration: znanstveni alati i AI mreža povezani u zvjezdanu konstelaciju domena

Google Research je 29. travnja 2026. predstavio ERA (Empirical Research Assistance) — interni AI sustav koji kombinira LLM-ove s računalnim alatima za ubrzanje znanstvenih istraživanja. Četiri konkretna rezultata u različitim domenama: vrh CDC ljestvice za prognozu hospitalizacija COVID/flu/RSV, šest novih rješenja za gravitacijsko zračenje kozmičkih struna, neuronska mreža koja prati atmosferski CO2 svakih 10 minuta i interpretabilni neuralni sklopovi zebrafish-a.

🟡 🏥 U praksi 30. travnja 2026. · 3 min čitanja

EvalEval Coalition: AI evaluacija postaje novi compute bottleneck — GAIA single run $2.829, HAL leaderboard $40.000, akademski auditori udaraju u budžetski zid prije tehničkog

Editorial illustration: vaga koja preteže prema evaluacijskim troškovima u odnosu na trening troškove

EvalEval Coalition (Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen) objavila je 29. travnja 2026. analizu na HuggingFace blogu koja pokazuje kako su troškovi evaluacije AI modela eksplodirali. Pojedinačan GAIA run košta $2.829, HAL leaderboard $40.000 (k=8 reliability $320.000), PaperBench oko $9.500 po agentu. Statički benchmarci se kompresiraju 100-200×, agentski samo 2-3.5× — accountability barrier za nezavisne auditore.

💬 Zajednica (1)

🛡️ Sigurnost (1)

← Prethodni dan Sljedeći dan →