Kako Nemotron OCR v2 postiže takvu brzinu?

Arhitektura je FOTS-based (Fast Oriented Text Spotting) s tri komponente koje dijele jedan konvolucijski backbone — tekst detektor (RegNetX-8GF), recognizer (6-layer pre-norm Transformer) i relacijski model. Input se procesira jednom, a feature reuse kroz sve tri komponente eliminira redundantne kalkulacije.

Koja je razlika između v2_english i v2_multilingual?

English varijanta ima 54M parametara, 3-layer recognizer, 855 znakova i 40,7 stranica/s. Multilingual ima 84M parametara, 6-layer recognizer, 14.244 znakova i 34,7 stranica/s — pokriva 5 jezika u istoj težini modela.

Koliki je skok kvalitete u odnosu na v1?

Dramatičan. v1 je imao NED skorove 0,56 do 0,92 na ne-engleskim jezicima (neupotrebljivo). v2 postiže NED 0,035 do 0,069 preko svih jezika — smanjenje greške za red veličine.

NVIDIA Nemotron OCR v2: 34,7 stranica u sekundi, pet jezika u jednom modelu, 28 puta brže od PaddleOCR

NVIDIA je 17. travnja 2026. na HuggingFaceu objavila Nemotron OCR v2, drugu generaciju svog optičkog prepoznavanja znakova. Autori Bo Liu, Ryan Chesler, Yuri Babakhin i pCriisS postigli su performanse koje redefiniraju industrijski standard — 34,7 stranica u sekundi na jednom A100 GPU-u za multilingvalni model.

Brzina i benchmarci

Na OmniDocBench benchmarku, Nemotron OCR v2 (multilingual) vs. konkurencija:

Model	Stranica/s
PaddleOCR v5	1,2
OpenOCR	1,5
Nemotron OCR v2 (multi)	34,7
Nemotron OCR v2 (EN)	40,7
EasyOCR	0,4

To je 28 puta brže od PaddleOCR v5 i 87 puta brže od EasyOCR-a. Za enterprise koji procesira milijune dokumenata dnevno, razlika između 1 i 35 stranica/s prevodi se u dramatične uštede u GPU satima.

Multilingvalni u jednom modelu

Ključna inovacija v2 je jezično-agnostična arhitektura. Jedan model pokriva:

Engleski
Kineski (pojednostavljeni i tradicionalni)
Japanski
Korejski
Ruski

Bez potrebe za detekcijom jezika. Klasični OCR stackovi imaju odvojene modele za svaki jezik i moraju prvo detektirati koji jezik je u slici — što dodaje latenciju i može pogriješiti na miješanim dokumentima. Nemotron OCR v2 to elegantno izbjegava kroz 14.244 znakova u jednom character setu (v1 je imao samo 855).

Sintetički trening — 12,2 milijuna slika

Najveća tehnička inovacija nije arhitektura sama, nego pristup podacima. NVIDIA je izgradila sintetički pipeline koji generira:

Ukupno 12,2 milijuna slika kroz šest jezika, s tipičnom distribucijom od 1,5 do 2,3 milijuna po jeziku (train/test/val split).

Sintetički pipeline

Tekstualni izvor: mOSCAR (multilingvalni web corpus, 163 jezična podskupa)

Rendering engine: Modified SynthDoG s proširenjima:

Multi-level bounding boxes (word, line, paragraph s 4-point quads)
Hierarchical reading order grafovi (inspirirani HierText projektom)
Raznolike layout moduste: multi-column text, rassut tekst, vertikalne kolone, tablice, slajdovi, dokumenti
165 do 1.258 open-source fontova po jeziku (Google Fonts, Noto obitelj)
Line-level recognition za CJK jezike (bez word segmentacije)

Augmentacije:

Text-level: rubovi, sjene, extrusion, šum na rubovima, stroke opacity
Image-level: morfološki operatori, median blur, elastic distortion
Page-level: contrast/brightness jitter, Gaussian/motion blur, shadows

FOTS arhitektura

Tri komponente, jedan backbone:

Text Detector (RegNetX-8GF)
Text Recognizer (6-layer pre-norm Transformer za multilingual)
Relational Model (compact Transformer encoder)

Ključ efikasnosti je dijeljeni konvolucijski backbone — input se procesira jednom, a feature reuse kroz sve tri komponente eliminira redundantno kalkuliranje. Tu se rađa 28x ubrzanje u odnosu na cascade pipeline gdje svaka faza ponovo obrađuje input.

Kvaliteta je jednako dobra kao brzina

Normalized Edit Distance (NED) na SynthDoG multilingvalnom benchmarku — niže je bolje:

Jezik	PaddleOCR	OpenOCR	Nemotron v1	Nemotron v2
Engleski	0,117	0,105	0,078	0,069
Japanski	0,201	0,586	0,723	0,046
Korejski	0,133	0,837	0,923	0,047
Ruski	0,163	0,950	0,564	0,043
Kineski S.	0,054	0,061	0,784	0,035
Kineski T.	0,094	0,127	0,700	0,065

v1 → v2 skok je dramatičan. Na japanskom s 0,723 na 0,046. Na korejskom s 0,923 na 0,047. Na kineskom traditional s 0,700 na 0,065. To je redovi veličine poboljšanja.

Licenciranje i dostupnost

Model: nvidia/nemotron-ocr-v2 na HuggingFaceu
Dataset: nvidia/OCR-Synthetic-Multilingual-v1 (12,2M slika)
Demo: Space na HuggingFaceu za live testiranje
Model licenca: NVIDIA Open Model License (komercijalno dopušteno)
Dataset licenca: CC-BY-4.0

Otvoreni dataset je posebno vrijedan — istraživačke grupe sada imaju pristup pipeline-u za kalibraciju vlastitih OCR modela s istom metodologijom.

Zašto je ovo značajno

Nemotron OCR v2 predstavlja trenutak gdje se sintetički podaci demonstriraju kao potpuno adekvatni za zadatke koji su tradicionalno tražili skupo manualno labeliranje. Sintetički pipeline je jeftiniji, skalabilniji i — što je najvažnije — pokriva jezike za koje nema dovoljno stvarnih trening podataka.

Za enterprise koji žele OCR kao component svog AI stacka, posebno za multilingvalne dokumentne workflowove, Nemotron OCR v2 postavlja novu bazu — ne samo kvalitete, nego i ekonomije.