🤖 Modeli

35 vijesti

🟡 🤖 Modeli 27. travnja 2026. · 3 min čitanja

arXiv:2604.21764: 'Thinking with Reasoning Skills' smanjuje broj reasoning tokena uz veću točnost na ACL 2026 Industry Tracku

Tim autora pod vodstvom Guangxianga Zhaoa objavio je 23. travnja 2026. paper 'Thinking with Reasoning Skills: Fewer Tokens, More Accuracy' prihvaćen na ACL 2026 Industry Track. Pristup destilira 'reusable reasoning skills' iz dugog chain-of-thought rasuđivanja i koristi ih kao retrieval-vodeni shortcut za nove probleme, čime značajno smanjuje broj tokena uz poboljšanje točnosti na coding i matematičkim zadacima.

🔴 🤖 Modeli 24. travnja 2026. · 3 min čitanja

DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified

Editorial illustration: DeepSeek V4 modeli — moduli s milijun tokena

DeepSeek je 24. travnja 2026. objavio V4-Pro (1,6T / 49B aktivnih) i V4-Flash (284B / 13B aktivnih), dva open-source modela s milijun tokena konteksta. V4-Pro postigao je 80,6 na SWE Verified, blizu Opusa 4.6, uz drastično smanjenu potrošnju memorije.

🔴 🤖 Modeli 24. travnja 2026. · 3 min čitanja

OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate

Editorial illustration: AI model — modeli

OpenAI je 23. travnja 2026. lansirao GPT-5.5, koji opisuju kao svoj najpametniji model dosad. Namijenjen je složenim zadacima poput programiranja, istraživanja i analize podataka kroz alate. Uz model je objavljen System Card i poseban Bio Bug Bounty program.

🟡 🤖 Modeli 24. travnja 2026. · 3 min čitanja

Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja

Editorial illustration: reasoning skills — obrasci zaključivanja i tokeni

Tim autora Zhao i suradnika objavio je na ACL 2026 Industry Tracku rad koji predlaže destilaciju reusable reasoning skilsova iz ekstenzivnog istraživanja. Umjesto razmišljanja od nule, model dohvaća relevantne obrasce, što smanjuje broj reasoning tokena i povećava točnost na kodiranju i matematici.

🟡 🤖 Modeli 23. travnja 2026. · 2 min čitanja

Google objavio GA gemini-embedding-2: prvi multimodalni embedding model s 5 modaliteta u istom prostoru

Google je objavio opću dostupnost gemini-embedding-2 modela koji podržava tekst, slike, video, audio i PDF ulaze mapirane u jedinstveni embedding prostor. Model je bio u preview-u od 10. ožujka 2026., a sada je svima dostupan putem Gemini API-ja.

🟡 🤖 Modeli 23. travnja 2026. · 2 min čitanja

Microsoft AutoAdapt: automatska prilagodba LLM-ova za specijalizirane domene u 30 minuta i 4 dolara

Microsoft Research predstavio je AutoAdapt, framework koji automatizira prilagodbu generalnih jezičnih modela specijaliziranim domenama poput medicine, prava i incident response. Sustav sam bira između RAG-a i fine-tuninga, optimizira hiperparametre i posao završava u približno 30 minuta uz dodatni trošak od oko 4 dolara.

🟢 🤖 Modeli 23. travnja 2026. · 3 min čitanja

Apple predstavio MANZANO — unificirani multimodalni model koji balansira razumijevanje i generiranje slika

Appleova istraživačka grupa na konferenciji ICLR 2026 predstavila je MANZANO, unificirani multimodalni framework koji rješava dugogodišnji trade-off između sposobnosti razumijevanja slika i kvalitete generiranja slika. Model koristi hibridni vision tokenizer koji proizvodi kontinuirane embeddinge za razumijevanje i diskretne tokene za generiranje, zajednički encoder i dva specijalizirana adaptera, čime smanjuje gubitak koji se inače javlja kada jedan model pokušava raditi oba zadatka.

🟢 🤖 Modeli 22. travnja 2026. · 2 min čitanja

MathNet: 30.676 olimpijadnih zadataka iz 47 zemalja, SOTA modeli i dalje zaostaju

Editorial ilustracija: Povezani cvorovi s matematickim simbolima i fragmenti globusa iz 47 zemalja

MIT tim je objavio MathNet, multimodalni benchmark s 30.676 olimpijadnih matematičkih zadataka iz 47 zemalja i 17 jezika. Gemini-3.1-Pro postiže 78,4%, GPT-5 69,3%, a embedding modeli imaju velike poteškoće s pronalaženjem matematički ekvivalentnih problema.

🟢 🤖 Modeli 22. travnja 2026. · 2 min čitanja

xAI Speech-to-Text API izlazi iz beta faze: generalna dostupnost za 25 jezika

Editorial ilustracija: Mikrofon i tokovi zvucnih valova pretvaraju se u transkripte 25 jezika kroz Grok API

xAI je objavio da njegov Speech-to-Text (STT) API prelazi iz beta faze u generalnu dostupnost. Servis podržava 25 jezika, nudi batch i streaming modove te je dostupan bez waitliste — dovršavajući glasovni stack uz ranije GA objavljen Grok Voice Agent.

🔴 🤖 Modeli 21. travnja 2026. · 3 min čitanja

Claude Opus 4.7 i Haiku 4.5 generalno dostupni u Amazon Bedrocku: 27 regija i self-serve pristup za enterprise

Anthropic je Claude Opus 4.7 i Haiku 4.5 prebacio u općenitu dostupnost unutar Amazon Bedrocka. Oba modela sada su aktivna u 27 AWS regija, bez liste čekanja, kroz standardni Messages API endpoint i uz podršku za regionalni i globalni routing zahtjeva.

🟡 🤖 Modeli 21. travnja 2026. · 3 min čitanja

Anthropic povlači Claude Haiku 3 iz produkcije: migracija na Haiku 4.5 obavezna od 20. travnja

Anthropic je 20. travnja 2026. formalno povukao Claude Haiku 3 (model ID claude-3-haiku-20240307) iz produkcije. Svi API pozivi na taj model od sada vraćaju grešku. Preporučena migracija je na Claude Haiku 4.5, a potez je dio deprecation ciklusa najavljenog u veljači 2026.

🟢 🤖 Modeli 21. travnja 2026. · 3 min čitanja

Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješenje je self-distillation SFT

Editorialna ilustracija: Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješen

Novi ArXiv paper otkriva da halucinacije nakon fine-tuninga ne uzrokuju ni kapacitet ni behavior cloning, nego interference među preklapajućim semantičkim reprezentacijama. Rješenje: self-distillation SFT koji regularizira output-distribution drift i tretira fine-tuning kao problem continual learninga.

🟡 🤖 Modeli 19. travnja 2026. · 2 min čitanja

YAN: Mixture-of-Experts Flow Matching postiže 40× ubrzanje nad autoregresivnim LM-ovima uz samo 3 sampling koraka

Editorial ilustracija: apstraktno vektorsko polje i paralelni strujni tokovi generativnog modela

YAN je novi generativni jezični model koji kombinira Transformer i Mamba arhitekturu s Mixture-of-Experts Flow Matching pristupom — postiže kvalitetu usporedivu s autoregresivnim modelima uz 3 sampling koraka, što daje 40× ubrzanje nad AR baznim linijama i do 1000× ubrzanje nad difuzijskim jezičnim modelima. Model dekomponira globalne transportne geometrije u lokalno specijalizirana vektorska polja.

🟢 🤖 Modeli 19. travnja 2026. · 2 min čitanja

IG-Search: Nagrada koja mjeri dobitak informacije poboljšava search-augmented reasoning uz 6,4 % overheada

Editorial ilustracija: krivulja dobitka informacije i strelice pretraživanja kroz korake razsuđivanja

IG-Search je novi pristup treningu AI modela za search-augmented reasoning koji koristi Information Gain (dobitak informacije) kao nagradu na razini koraka. Signal se derivira iz vlastitih vjerojatnosti generiranja modela bez vanjskih anotacija, a Qwen2.5-3B s ovom metodom postiže prosječni EM score 0,430 na 7 QA benchmarkova — 1,6 bodova iznad MR-Search i 0,9 bodova iznad GiGPO uz računski overhead svega 6,4 %.

🟢 🤖 Modeli 19. travnja 2026. · 3 min čitanja

LLM-ovi uče najkraći put na grafovima — ali padaju kad se produlji horizont zadatka

Editorial ilustracija: graf s čvorovima i putevima, dugi horizont koji blijedi u daljini

Novi arXiv rad istražuje sistematsku generalizaciju LLM-ova na problemu najkraćeg puta u grafu po dvije dimenzije: prostorni transfer na neviđene karte radi dobro, ali skaliranje duljinom horizonta dosljedno puca zbog rekurzivne nestabilnosti. Zaključak ima direktne implikacije za autonomne agente — pokrivenost trening podataka definira granicu sposobnosti, RL poboljšava stabilnost ali ne proširuje granice, inference-time scaling pomaže ali ne rješava length-scaling problem.

🟡 🤖 Modeli 18. travnja 2026. · 3 min čitanja

AWS Nova destilacija za video semantičku pretragu: 95 posto uštede i dvostruko brži inference

AWS je demonstrirao kako model distillation prebacuje inteligenciju velikog Nova Premier modela u manji Nova Micro za video search routing. Rezultati su 95 posto ušteda na troškovima inferencija, 50 posto manja latencija (833 ms umjesto 1741 ms) i zadržana kvaliteta po LLM-as-judge ocjeni (4,0 od 5). Cijeli trening koristio je 10000 sintetičkih primjera generiranih iz Nova Premiera.

🟡 🤖 Modeli 18. travnja 2026. · 4 min čitanja

AWS Nova Multimodal Embeddings za video pretragu: hibridni pristup donosi 90 posto recalla umjesto 51 posto

AWS Nova Multimodal Embeddings su nova arhitektura koja istovremeno obrađuje vizualni, audio i tekstualni sadržaj videa u zajednički 1024-dimenzionalni vektorski prostor bez pretvaranja u tekst. Kombinacija semantičkog embeddinga s BM25 leksičkom pretragom daje 90 posto Recall@5, u odnosu na 51 posto za baseline combined-mode embeddinge — skok od 30 do 40 postotnih bodova na svim mjerama.

🟡 🤖 Modeli 18. travnja 2026. · 4 min čitanja

NVIDIA Nemotron OCR v2: 34,7 stranica u sekundi, pet jezika u jednom modelu, 28 puta brže od PaddleOCR

NVIDIA je na HuggingFaceu objavila Nemotron OCR v2, multilingvalni OCR model koji obrađuje 34,7 stranica u sekundi na jednom A100 GPU-u. To je 28 puta brže od PaddleOCR v5. Model podržava engleski, kineski, japanski, korejski i ruski u jedinstvenoj arhitekturi, bez potrebe za detekcijom jezika. Treniran na 12,2 milijuna sintetičkih slika, model i dataset su dostupni pod NVIDIA Open Model licencom i CC-BY-4.0.

🟢 🤖 Modeli 18. travnja 2026. · 3 min čitanja

ArXiv AC/DC: automatsko otkrivanje specijaliziranih LLM-ova kroz koevoluciju modela i zadataka

AC/DC je novi framework prezentiran na ICLR 2026 koji istovremeno evoluira LLM modele kroz model merging i zadatke kroz sintetičke podatke. Otkrivene populacije modela demonstriraju širu pokrivenost ekspertize od ručno kurirani modela bez eksplicitne optimizacije za benchmarke. Modeli nadmašuju veće pandane uz manju GPU memoriju, što predstavlja novi paradigm u kontinuiranom razvoju LLM-a.

🔴 🤖 Modeli 17. travnja 2026. · 2 min čitanja

Anthropic: Claude Opus 4.7 donosi high-res viziju, task budgete i novi tokenizer — Opus 4 odlazi u mirovinu

Editorial ilustracija: Claude Opus 4.7 flagship model s vizijom i task budgetima

Claude Opus 4.7 je novi Anthropicov flagship AI model koji zamjenjuje Opus 4.6 po istoj cijeni od 5 dolara za ulaz i 25 dolara za izlaz po milijun tokena. Donosi trostruko veću rezoluciju slika do 2576 piksela, novi effort level xhigh za složene agentske zadatke, task budgete koji modelu omogućuju samostalno upravljanje resursima u dugim loopovima te potpuno novi tokenizer.

🟡 🤖 Modeli 17. travnja 2026. · 3 min čitanja

ArXiv: conformal prediction otkriva skrivene nepouzdanosti LLM sudaca

Diagnosing LLM Judge Reliability je nova studija koja pokazuje da agregatne metrike pouzdanosti LLM-as-judge sustava zamagljuju ozbiljne per-instance inkonzistencije. Iako su ukupne stope kršenja tranzitivnosti 0,8 do 4,1 posto, čak 33 do 67 posto dokumenata ima najmanje jedan tranzitivni ciklus. Metoda se oslanja na conformal prediction sets s teorijski zajamčenim pokrivanjem.

🟡 🤖 Modeli 17. travnja 2026. · 2 min čitanja

ArXiv: LongCoT benchmark otkriva da GPT 5.2 postiže samo 9.8% na dugom chain-of-thought razsuđivanju

LongCoT je novi benchmark s 2.500 stručno dizajniranih problema kroz pet domena koji testira sposobnost dugog chain-of-thought razsuđivanja koje može zahtijevati desetke do stotine tisuća tokena. Trenutni frontier modeli dramatično zakazuju s rezultatima GPT 5.2 na 9.8 posto i Gemini 3 Pro na samo 6.1 posto, identificirajući kritičnu slabost za autonomni deployment AI agenata.

🟡 🤖 Modeli 17. travnja 2026. · 2 min čitanja

Google Research: AI generira sintetičke neurone i štedi 157 čovjek-godina na mapiranju mozga

Google Research razvio je MoGen sustav koji koristi PointInfinity point cloud flow matching model za generiranje sintetičkih oblika neurona nerazlučivih od pravih prema ocjenama eksperata. Samo 10 posto sintetičkih podataka u treningu smanjuje stopu grešaka za 4.4 posto što je ekvivalent uštede od 157 čovjek-godina ručnog rada pri mapiranju punog mišjeg mozga.

🟡 🤖 Modeli 17. travnja 2026. · 3 min čitanja

Google Simula: sinteza podataka kao mehanizam dizajna umjesto sample-po-sample optimizacije

Simula je Googleov framework koji tretira generiranje sintetičkih podataka kao problem dizajna mehanizama, a ne pojedinačnih uzoraka. Sustav koristi reasoning modele za izgradnju hijerarhijskih taksonomija i kontrolira četiri nezavisne osi generiranja podataka. Već je u produkciji — pokreće Gemini safety klasifikatore, MedGemmu, detekciju prevara na Androidu i filtriranje spama u Google Messagesima.

🟡 🤖 Modeli 17. travnja 2026. · 2 min čitanja

OpenAI: GPT-Rosalind — prvi frontier reasoning model specijaliziran za life sciences

GPT-Rosalind je novi OpenAI frontier reasoning model specijaliziran za istraživanje u bioznanostima uključujući otkrivanje lijekova, genomsku analizu i protein reasoning. Model nastavlja trend specijaliziranih AI sustava nakon GPT-5.4-Cyber za kibernetičku sigurnost i signalizira stratešku odluku OpenAI-ja da gradi vertikalno optimizirane modele za ključne industrije.

🟡 🤖 Modeli 16. travnja 2026. · 2 min čitanja

Google: Gemini 3.1 Flash TTS donosi ekspresivni AI govor na više od 70 jezika

Google je lansirao Gemini 3.1 Flash TTS, novi text-to-speech model koji podržava više od 70 jezika i postiže Elo rezultat od 1.211 na ljestvici Artificial Analysis. Ključna inovacija su audio tagovi — ugrađivanje natural language komandi direktno u tekst za preciznu kontrolu glasa, intonacije i emocija. Model je dostupan na Google AI Studio, Vertex AI i Google Vids, uz SynthID watermarking za detekciju AI-generiranog zvuka.

🟢 🤖 Modeli 16. travnja 2026. · 2 min čitanja

ArXiv: Numerička nestabilnost u LLM-ovima — kako floating-point greške stvaraju kaos u transformerima

Novo istraživanje rigorozno analizira kako greške zaokruživanja u floating-point aritmetici propagiraju kaos kroz slojeve transformer arhitekture. Rad identificira tri režima ponašanja — stabilni, kaotični i signal-dominirani — te dokazuje da numerička nestabilnost nije bug nego fundamentalno svojstvo LLM-ova koje ugrožava reproducibilnost u produkcijskim sustavima.

🔴 🤖 Modeli 15. travnja 2026. · 1 min čitanja

Anthropic: Claude Sonnet 4 i Opus 4 odlaze u mirovinu 15. lipnja

Anthropic je najavio deprecaciju originalnih modela Claude Sonnet 4 i Claude Opus 4. Oba modela bit ce povucena s API-ja 15. lipnja 2026. Razvojni timovi trebaju migrirati na verzije 4.6 sto prije.

🟡 🤖 Modeli 15. travnja 2026. · 2 min čitanja

ArXiv: Otkriveni neuroni odgovorni za štetne odgovore velikih jezičnih modela

Kauzalna analiza mehanizama unutar LLM-ova otkriva da štetni sadržaj nastaje u kasnijim slojevima modela, primarno kroz MLP blokove. Mali skup neurona u završnom sloju djeluje kao kontrolni mehanizam za štetne odgovore.

🟡 🤖 Modeli 15. travnja 2026. · 1 min čitanja

Google: Gemini Robotics-ER 1.6 donosi citanje instrumenata i prostorno razumijevanje

Google je objavio Gemini Robotics-ER 1.6 s novim sposobnostima citanja instrumenata i poboljsanim prostornim i fizickim razumijevanjem. Prethodna verzija 1.5 gasi se 30. travnja.

🟡 🤖 Modeli 14. travnja 2026. · 2 min čitanja

ArXiv: Process Reward Agents — real-time feedback poboljšava AI zaključivanje u medicini bez retraininga

Istraživači su predstavili Process Reward Agents (PRA), novi pristup koji pruža korak-po-korak povratnu informaciju tijekom AI zaključivanja u medicinskim domenama. Sustav radi s postojećim modelima bez potrebe za retrainingom i postiže značajne rezultate na medicinskim benchmarkovima.

🟡 🤖 Modeli 13. travnja 2026. · 1 min čitanja

ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu

Process Reward Agents omogućuju malim zamrznutim modelima (0.5B-8B) da značajno poboljšaju medicinski reasoning bez ikakvog treniranja — Qwen3-4B postiže novi state-of-the-art od 80.8% na MedQA.

🟡 🤖 Modeli 13. travnja 2026. · 1 min čitanja

ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja

Sequence-Level PPO reformulira LLM reasoning kao kontekstualni bandit problem, postižući performanse skupih grupnih metoda poput GRPO uz dramatično manje resursa — bez multi-samplinga.

🟡 🤖 Modeli 11. travnja 2026. · 2 min čitanja

ArXiv SUPERNOVA: reinforcement learning na prirodnim instrukcijama poboljšava razmišljanje za 52.8%

Novi rad SUPERNOVA pokazuje da sistematska kuracija postojećih instruction-tuning datasetova može značajno poboljšati reasoning u LLM-ovima. Modeli trenirani na SUPERNOVA postižu do 52.8% relativno poboljšanje na BBEH benchmarku.

🟢 🤖 Modeli 10. travnja 2026. · 2 min čitanja

Sentence Transformers v5.4 dodaje podršku za multimodalne embedding i reranker modele

HuggingFaceova biblioteka Sentence Transformers dobila je verziju 5.4 koja uvodi multimodalne embedding i reranker modele. Korisnici sad mogu mapirati tekst, slike, audio i video u zajednički embedding prostor i raditi cross-modal sličnost — unifikacija pretrage preko različitih tipova sadržaja.