Mistral: OCR 4 — strukturirana ekstrakcija dokumenata s bounding boxovima u 170 jezika
Mistral OCR 4 je novi model za optičko prepoznavanje znakova koji postiže vrh ljestvice na OlmOCRBenchu s 85,20 bodova, podržava 170 jezika i donosi paragraph-level bounding boxove — sve uz cijenu od 4 USD na 1000 stranica.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Mistral AI objavio je OCR 4 — novi model za optičko prepoznavanje znakova (engl. Optical Character Recognition) koji skeniranim i digitalnim dokumentima izvlači ne samo tekst, nego i cijelu strukturu stranice s prostornim koordinatama odlomaka.
Što Mistral OCR 4 donosi novo?
Model se identificira kao mistral-ocr-4-0; alias mistral-ocr-latest sada pokazuje na ovu verziju. Ključna novost je parametar include_blocks koji vraća niz blocks s paragraph-level bounding boxovima — pravokutnim okvirima koji definiraju položaj svakog odlomka na stranici zajedno s redoslijedom čitanja. Uz koordinate, svaki blok nosi strukturalnu oznaku: naslov, tablica, jednadžba, potpis, zaglavlje ili podnožje.
Benchmarci: vrh ljestvice na svim mjerilima
Mistral OCR 4 postiže 85,20 bodova na OlmOCRBenchu — trenutno najviši rezultat na toj ljestvici — i 93,07 bodova na OmniDocBenchu. Na internom višejezičnom Crawl Multilingual testu doseže 98 bodova. U ljudskim preferencijama model bilježi prosječan win-rate od 72% nad testiranim alternativama, što je zamjetan skok u odnosu na prethodne Mistral OCR inačice.
Podrška za 170 jezika i deployment opcije
Model pokriva 170 jezika raspoređenih u 10 jezičnih grupa, a ulazni formati obuhvaćaju PDF, DOC, PPT i OpenDocument datoteke. Za organizacije kojima je važna suverenost podataka, Mistral OCR 4 dolazi kao self-hosted rješenje unutar jednog kontejnera — bez slanja dokumenata na vanjske poslužitelje. Integracije su dostupne i na AWS SageMakeru, Microsoft Foundryju i Snowflakeu.
Cijene i dostupnost
Standardni API naplaćuje 4 USD na 1000 stranica, dok Batch API smanjuje trošak na 2 USD na 1000 stranica — što ga čini privlačnim za masovnu obradu arhiva. Na Document AI platformi cijena iznosi 5 USD na 1000 stranica. U usporedbi s ranijim Mistral OCR verzijama koje nisu nudile strukturalne blokove, OCR 4 za istu infrastrukturu donosi znatno bogatiji izlaz pogodan za daljnju obradu u RAG sustavima i digitalnim arhivima.
Česta pitanja
- Što je OCR i čemu služi Mistral OCR 4?
- OCR (Optical Character Recognition — optičko prepoznavanje znakova) je tehnologija koja pretvara slike teksta ili skeniranih dokumenata u strojno čitljiv tekst. Mistral OCR 4 ide korak dalje: uz ekstrakciju teksta vraća i strukturalne oznake poput naslova, tablica i potpisa, kao i prostorne koordinate (bounding boxove) za svaki odlomak.
- Koliko košta Mistral OCR 4 u usporedbi s konkurencijom?
- API cijena iznosi 4 USD na 1000 stranica, a Batch API nudi cijenu od 2 USD na 1000 stranica. Na platformi Document AI cijena je 5 USD na 1000 stranica.
Izvori
Povezane vijesti
arXiv:2606.23181: DART — bez treninga do adaptivnog mišljenja u hibridnim reasoning modelima
PyTorch/SGLang: DeepSeek-V4 Pro na NVIDIA GB300 — 5× veći throughput uz isti interaktivitet
arXiv:2606.20560: DiffusionGemma jednako čitljiv kao Gemma 4 — praznina od 28,6× srušena na 1,1×