NVIDIA Nemotron OCR v2: 34,7 stranica u sekundi, pet jezika u jednom modelu, 28 puta brže od PaddleOCR
Zašto je bitno
NVIDIA je na HuggingFaceu objavila Nemotron OCR v2, multilingvalni OCR model koji obrađuje 34,7 stranica u sekundi na jednom A100 GPU-u. To je 28 puta brže od PaddleOCR v5. Model podržava engleski, kineski, japanski, korejski i ruski u jedinstvenoj arhitekturi, bez potrebe za detekcijom jezika. Treniran na 12,2 milijuna sintetičkih slika, model i dataset su dostupni pod NVIDIA Open Model licencom i CC-BY-4.0.
NVIDIA je 17. travnja 2026. na HuggingFaceu objavila Nemotron OCR v2, drugu generaciju svog optičkog prepoznavanja znakova. Autori Bo Liu, Ryan Chesler, Yuri Babakhin i pCriisS postigli su performanse koje redefiniraju industrijski standard — 34,7 stranica u sekundi na jednom A100 GPU-u za multilingvalni model.
Brzina i benchmarci
Na OmniDocBench benchmarku, Nemotron OCR v2 (multilingual) vs. konkurencija:
| Model | Stranica/s |
|---|---|
| PaddleOCR v5 | 1,2 |
| OpenOCR | 1,5 |
| Nemotron OCR v2 (multi) | 34,7 |
| Nemotron OCR v2 (EN) | 40,7 |
| EasyOCR | 0,4 |
To je 28 puta brže od PaddleOCR v5 i 87 puta brže od EasyOCR-a. Za enterprise koji procesira milijune dokumenata dnevno, razlika između 1 i 35 stranica/s prevodi se u dramatične uštede u GPU satima.
Multilingvalni u jednom modelu
Ključna inovacija v2 je jezično-agnostična arhitektura. Jedan model pokriva:
- Engleski
- Kineski (pojednostavljeni i tradicionalni)
- Japanski
- Korejski
- Ruski
Bez potrebe za detekcijom jezika. Klasični OCR stackovi imaju odvojene modele za svaki jezik i moraju prvo detektirati koji jezik je u slici — što dodaje latenciju i može pogriješiti na miješanim dokumentima. Nemotron OCR v2 to elegantno izbjegava kroz 14.244 znakova u jednom character setu (v1 je imao samo 855).
Sintetički trening — 12,2 milijuna slika
Najveća tehnička inovacija nije arhitektura sama, nego pristup podacima. NVIDIA je izgradila sintetički pipeline koji generira:
Ukupno 12,2 milijuna slika kroz šest jezika, s tipičnom distribucijom od 1,5 do 2,3 milijuna po jeziku (train/test/val split).
Sintetički pipeline
Tekstualni izvor: mOSCAR (multilingvalni web corpus, 163 jezična podskupa)
Rendering engine: Modified SynthDoG s proširenjima:
- Multi-level bounding boxes (word, line, paragraph s 4-point quads)
- Hierarchical reading order grafovi (inspirirani HierText projektom)
- Raznolike layout moduste: multi-column text, rassut tekst, vertikalne kolone, tablice, slajdovi, dokumenti
- 165 do 1.258 open-source fontova po jeziku (Google Fonts, Noto obitelj)
- Line-level recognition za CJK jezike (bez word segmentacije)
Augmentacije:
- Text-level: rubovi, sjene, extrusion, šum na rubovima, stroke opacity
- Image-level: morfološki operatori, median blur, elastic distortion
- Page-level: contrast/brightness jitter, Gaussian/motion blur, shadows
FOTS arhitektura
Tri komponente, jedan backbone:
- Text Detector (RegNetX-8GF)
- Text Recognizer (6-layer pre-norm Transformer za multilingual)
- Relational Model (compact Transformer encoder)
Ključ efikasnosti je dijeljeni konvolucijski backbone — input se procesira jednom, a feature reuse kroz sve tri komponente eliminira redundantno kalkuliranje. Tu se rađa 28x ubrzanje u odnosu na cascade pipeline gdje svaka faza ponovo obrađuje input.
Kvaliteta je jednako dobra kao brzina
Normalized Edit Distance (NED) na SynthDoG multilingvalnom benchmarku — niže je bolje:
| Jezik | PaddleOCR | OpenOCR | Nemotron v1 | Nemotron v2 |
|---|---|---|---|---|
| Engleski | 0,117 | 0,105 | 0,078 | 0,069 |
| Japanski | 0,201 | 0,586 | 0,723 | 0,046 |
| Korejski | 0,133 | 0,837 | 0,923 | 0,047 |
| Ruski | 0,163 | 0,950 | 0,564 | 0,043 |
| Kineski S. | 0,054 | 0,061 | 0,784 | 0,035 |
| Kineski T. | 0,094 | 0,127 | 0,700 | 0,065 |
v1 → v2 skok je dramatičan. Na japanskom s 0,723 na 0,046. Na korejskom s 0,923 na 0,047. Na kineskom traditional s 0,700 na 0,065. To je redovi veličine poboljšanja.
Licenciranje i dostupnost
- Model:
nvidia/nemotron-ocr-v2na HuggingFaceu - Dataset:
nvidia/OCR-Synthetic-Multilingual-v1(12,2M slika) - Demo: Space na HuggingFaceu za live testiranje
- Model licenca: NVIDIA Open Model License (komercijalno dopušteno)
- Dataset licenca: CC-BY-4.0
Otvoreni dataset je posebno vrijedan — istraživačke grupe sada imaju pristup pipeline-u za kalibraciju vlastitih OCR modela s istom metodologijom.
Zašto je ovo značajno
Nemotron OCR v2 predstavlja trenutak gdje se sintetički podaci demonstriraju kao potpuno adekvatni za zadatke koji su tradicionalno tražili skupo manualno labeliranje. Sintetički pipeline je jeftiniji, skalabilniji i — što je najvažnije — pokriva jezike za koje nema dovoljno stvarnih trening podataka.
Za enterprise koji žele OCR kao component svog AI stacka, posebno za multilingvalne dokumentne workflowove, Nemotron OCR v2 postavlja novu bazu — ne samo kvalitete, nego i ekonomije.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja
DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate