🤖 24 AI
🟡 🤖 Modeli subota, 18. travnja 2026. · 4 min čitanja

NVIDIA Nemotron OCR v2: 34,7 stranica u sekundi, pet jezika u jednom modelu, 28 puta brže od PaddleOCR

Zašto je bitno

NVIDIA je na HuggingFaceu objavila Nemotron OCR v2, multilingvalni OCR model koji obrađuje 34,7 stranica u sekundi na jednom A100 GPU-u. To je 28 puta brže od PaddleOCR v5. Model podržava engleski, kineski, japanski, korejski i ruski u jedinstvenoj arhitekturi, bez potrebe za detekcijom jezika. Treniran na 12,2 milijuna sintetičkih slika, model i dataset su dostupni pod NVIDIA Open Model licencom i CC-BY-4.0.

NVIDIA je 17. travnja 2026. na HuggingFaceu objavila Nemotron OCR v2, drugu generaciju svog optičkog prepoznavanja znakova. Autori Bo Liu, Ryan Chesler, Yuri Babakhin i pCriisS postigli su performanse koje redefiniraju industrijski standard — 34,7 stranica u sekundi na jednom A100 GPU-u za multilingvalni model.

Brzina i benchmarci

Na OmniDocBench benchmarku, Nemotron OCR v2 (multilingual) vs. konkurencija:

ModelStranica/s
PaddleOCR v51,2
OpenOCR1,5
Nemotron OCR v2 (multi)34,7
Nemotron OCR v2 (EN)40,7
EasyOCR0,4

To je 28 puta brže od PaddleOCR v5 i 87 puta brže od EasyOCR-a. Za enterprise koji procesira milijune dokumenata dnevno, razlika između 1 i 35 stranica/s prevodi se u dramatične uštede u GPU satima.

Multilingvalni u jednom modelu

Ključna inovacija v2 je jezično-agnostična arhitektura. Jedan model pokriva:

  • Engleski
  • Kineski (pojednostavljeni i tradicionalni)
  • Japanski
  • Korejski
  • Ruski

Bez potrebe za detekcijom jezika. Klasični OCR stackovi imaju odvojene modele za svaki jezik i moraju prvo detektirati koji jezik je u slici — što dodaje latenciju i može pogriješiti na miješanim dokumentima. Nemotron OCR v2 to elegantno izbjegava kroz 14.244 znakova u jednom character setu (v1 je imao samo 855).

Sintetički trening — 12,2 milijuna slika

Najveća tehnička inovacija nije arhitektura sama, nego pristup podacima. NVIDIA je izgradila sintetički pipeline koji generira:

Ukupno 12,2 milijuna slika kroz šest jezika, s tipičnom distribucijom od 1,5 do 2,3 milijuna po jeziku (train/test/val split).

Sintetički pipeline

Tekstualni izvor: mOSCAR (multilingvalni web corpus, 163 jezična podskupa)

Rendering engine: Modified SynthDoG s proširenjima:

  • Multi-level bounding boxes (word, line, paragraph s 4-point quads)
  • Hierarchical reading order grafovi (inspirirani HierText projektom)
  • Raznolike layout moduste: multi-column text, rassut tekst, vertikalne kolone, tablice, slajdovi, dokumenti
  • 165 do 1.258 open-source fontova po jeziku (Google Fonts, Noto obitelj)
  • Line-level recognition za CJK jezike (bez word segmentacije)

Augmentacije:

  • Text-level: rubovi, sjene, extrusion, šum na rubovima, stroke opacity
  • Image-level: morfološki operatori, median blur, elastic distortion
  • Page-level: contrast/brightness jitter, Gaussian/motion blur, shadows

FOTS arhitektura

Tri komponente, jedan backbone:

  1. Text Detector (RegNetX-8GF)
  2. Text Recognizer (6-layer pre-norm Transformer za multilingual)
  3. Relational Model (compact Transformer encoder)

Ključ efikasnosti je dijeljeni konvolucijski backbone — input se procesira jednom, a feature reuse kroz sve tri komponente eliminira redundantno kalkuliranje. Tu se rađa 28x ubrzanje u odnosu na cascade pipeline gdje svaka faza ponovo obrađuje input.

Kvaliteta je jednako dobra kao brzina

Normalized Edit Distance (NED) na SynthDoG multilingvalnom benchmarku — niže je bolje:

JezikPaddleOCROpenOCRNemotron v1Nemotron v2
Engleski0,1170,1050,0780,069
Japanski0,2010,5860,7230,046
Korejski0,1330,8370,9230,047
Ruski0,1630,9500,5640,043
Kineski S.0,0540,0610,7840,035
Kineski T.0,0940,1270,7000,065

v1 → v2 skok je dramatičan. Na japanskom s 0,723 na 0,046. Na korejskom s 0,923 na 0,047. Na kineskom traditional s 0,700 na 0,065. To je redovi veličine poboljšanja.

Licenciranje i dostupnost

  • Model: nvidia/nemotron-ocr-v2 na HuggingFaceu
  • Dataset: nvidia/OCR-Synthetic-Multilingual-v1 (12,2M slika)
  • Demo: Space na HuggingFaceu za live testiranje
  • Model licenca: NVIDIA Open Model License (komercijalno dopušteno)
  • Dataset licenca: CC-BY-4.0

Otvoreni dataset je posebno vrijedan — istraživačke grupe sada imaju pristup pipeline-u za kalibraciju vlastitih OCR modela s istom metodologijom.

Zašto je ovo značajno

Nemotron OCR v2 predstavlja trenutak gdje se sintetički podaci demonstriraju kao potpuno adekvatni za zadatke koji su tradicionalno tražili skupo manualno labeliranje. Sintetički pipeline je jeftiniji, skalabilniji i — što je najvažnije — pokriva jezike za koje nema dovoljno stvarnih trening podataka.

Za enterprise koji žele OCR kao component svog AI stacka, posebno za multilingvalne dokumentne workflowove, Nemotron OCR v2 postavlja novu bazu — ne samo kvalitete, nego i ekonomije.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.