Wie erreicht Nemotron OCR v2 diese Geschwindigkeit?

Die Architektur basiert auf FOTS (Fast Oriented Text Spotting) mit drei Komponenten, die einen gemeinsamen Convolutional Backbone teilen — Textdetektor (RegNetX-8GF), Recognizer (6-schichtiger Pre-Norm Transformer) und Relationsmodell. Die Eingabe wird einmal verarbeitet, und Feature-Reuse über alle drei Komponenten eliminiert redundante Berechnungen.

Was ist der Unterschied zwischen v2_english und v2_multilingual?

Die englische Variante hat 54M Parameter, einen 3-schichtigen Recognizer, 855 Zeichen und 40,7 Seiten/s. Multilingual hat 84M Parameter, einen 6-schichtigen Recognizer, 14.244 Zeichen und 34,7 Seiten/s — deckt 5 Sprachen in denselben Modellgewichten ab.

Wie groß ist der Qualitätssprung gegenüber v1?

Dramatisch. v1 hatte NED-Werte von 0,56 bis 0,92 bei nicht-englischen Sprachen (unbrauchbar). v2 erreicht NED 0,035 bis 0,069 über alle Sprachen — eine Reduktion der Fehlerrate um eine Größenordnung.

NVIDIA Nemotron OCR v2: 34,7 Seiten pro Sekunde, fünf Sprachen in einem Modell, 28-mal schneller als PaddleOCR

NVIDIA hat am 17. April 2026 auf HuggingFace Nemotron OCR v2 veröffentlicht — die zweite Generation seiner optischen Zeichenerkennung. Die Autoren Bo Liu, Ryan Chesler, Yuri Babakhin und pCriisS haben Leistungen erreicht, die den Industriestandard neu definieren — 34,7 Seiten pro Sekunde auf einer einzelnen A100-GPU für das mehrsprachige Modell.

Geschwindigkeit und Benchmarks

Im OmniDocBench-Benchmark, Nemotron OCR v2 (mehrsprachig) im Vergleich zur Konkurrenz:

Modell	Seiten/s
PaddleOCR v5	1,2
OpenOCR	1,5
Nemotron OCR v2 (multi)	34,7
Nemotron OCR v2 (EN)	40,7
EasyOCR	0,4

Das ist 28-mal schneller als PaddleOCR v5 und 87-mal schneller als EasyOCR. Für ein Unternehmen, das täglich Millionen von Dokumenten verarbeitet, übersetzt sich der Unterschied zwischen 1 und 35 Seiten/s in dramatische Einsparungen bei GPU-Stunden.

Mehrsprachig in einem Modell

Die zentrale Innovation von v2 ist seine sprachagnostische Architektur. Ein einziges Modell deckt ab:

Englisch
Chinesisch (Vereinfacht und Traditionell)
Japanisch
Koreanisch
Russisch

Keine Spracherkennung erforderlich. Klassische OCR-Stacks verwenden separate Modelle für jede Sprache und müssen zunächst erkennen, welche Sprache im Bild vorkommt — was Latenz hinzufügt und bei gemischtsprachigen Dokumenten scheitern kann. Nemotron OCR v2 umgeht dies elegant durch 14.244 Zeichen in einem einzigen Zeichensatz (v1 hatte nur 855).

Synthetisches Training — 12,2 Millionen Bilder

Die größte technische Innovation liegt nicht in der Architektur selbst, sondern im Ansatz bei den Daten. NVIDIA hat eine synthetische Pipeline aufgebaut, die Folgendes generiert:

Insgesamt 12,2 Millionen Bilder über sechs Sprachen mit einer typischen Verteilung von 1,5 bis 2,3 Millionen pro Sprache (Train/Test/Val-Split).

Synthetische Pipeline

Textquelle: mOSCAR (mehrsprachiges Web-Corpus, 163 Sprachuntermengen)

Rendering-Engine: Modifiziertes SynthDoG mit Erweiterungen:

Mehrstufige Begrenzungsrahmen (Wort, Zeile, Absatz mit 4-Punkt-Quads)
Hierarchische Leseordnungsgraphen (inspiriert vom HierText-Projekt)
Vielfältige Layout-Modi: mehrspaltiger Text, verstreuter Text, vertikale Spalten, Tabellen, Folien, Dokumente
165 bis 1.258 Open-Source-Schriftarten pro Sprache (Google Fonts, Noto-Familie)
Zeilenerkennung für CJK-Sprachen (ohne Wortsegmentierung)

Augmentierungen:

Textebene: Ränder, Schatten, Extrusion, Kantenrauschen, Strichdeckkraft
Bildebene: morphologische Operatoren, Medianunschärfe, elastische Verzerrung
Seitenebene: Kontrast-/Helligkeitsschwankungen, Gaußsche-/Bewegungsunschärfe, Schatten

FOTS-Architektur

Drei Komponenten, ein Backbone:

Textdetektor (RegNetX-8GF)
Text-Recognizer (6-schichtiger Pre-Norm Transformer für mehrsprachig)
Relationsmodell (kompakter Transformer-Encoder)

Der Schlüssel zur Effizienz ist der gemeinsame Convolutional Backbone — die Eingabe wird einmal verarbeitet, und Feature-Reuse über alle drei Komponenten eliminiert redundante Berechnungen. Darin begründet sich die 28-fache Beschleunigung gegenüber Cascade-Pipelines, bei denen jede Stufe die Eingabe erneut verarbeitet.

Die Qualität ist ebenso beeindruckend wie die Geschwindigkeit

Normalized Edit Distance (NED) im SynthDoG mehrsprachigen Benchmark — niedriger ist besser:

Sprache	PaddleOCR	OpenOCR	Nemotron v1	Nemotron v2
Englisch	0,117	0,105	0,078	0,069
Japanisch	0,201	0,586	0,723	0,046
Koreanisch	0,133	0,837	0,923	0,047
Russisch	0,163	0,950	0,564	0,043
Chinesisch V.	0,054	0,061	0,784	0,035
Chinesisch T.	0,094	0,127	0,700	0,065

Der v1 → v2 Sprung ist dramatisch. Japanisch von 0,723 auf 0,046. Koreanisch von 0,923 auf 0,047. Traditionelles Chinesisch von 0,700 auf 0,065. Das sind Verbesserungen um Größenordnungen.

Lizenzierung und Verfügbarkeit

Modell: nvidia/nemotron-ocr-v2 auf HuggingFace
Datensatz: nvidia/OCR-Synthetic-Multilingual-v1 (12,2M Bilder)
Demo: Space auf HuggingFace für Live-Tests
Modelllizenz: NVIDIA Open Model License (kommerzielle Nutzung erlaubt)
Datensatzlizenz: CC-BY-4.0

Der offene Datensatz ist besonders wertvoll — Forschungsgruppen haben nun Zugang zur Pipeline, um ihre eigenen OCR-Modelle mit derselben Methodik zu kalibrieren.

Warum das bedeutsam ist

Nemotron OCR v2 stellt einen Moment dar, in dem synthetische Daten als vollständig ausreichend für Aufgaben demonstriert werden, die traditionell teures manuelles Labeling erforderten. Die synthetische Pipeline ist günstiger, skalierbarer und — was am wichtigsten ist — deckt Sprachen ab, für die es nicht genügend echte Trainingsdaten gibt.

Für Unternehmen, die OCR als Komponente ihres KI-Stacks möchten, insbesondere für mehrsprachige Dokument-Workflows, setzt Nemotron OCR v2 eine neue Basis — nicht nur für Qualität, sondern auch für Wirtschaftlichkeit.