🤖 24 AI
🟡 🤖 Modelle Samstag, 18. April 2026 · 4 Min. Lesezeit

NVIDIA Nemotron OCR v2: 34,7 Seiten pro Sekunde, fünf Sprachen in einem Modell, 28-mal schneller als PaddleOCR

Warum es wichtig ist

NVIDIA hat Nemotron OCR v2 auf HuggingFace veröffentlicht — ein mehrsprachiges OCR-Modell, das 34,7 Seiten pro Sekunde auf einer einzelnen A100-GPU verarbeitet. Das ist 28-mal schneller als PaddleOCR v5. Das Modell unterstützt Englisch, Chinesisch, Japanisch, Koreanisch und Russisch in einer einzigen Architektur ohne Spracherkennung. Trainiert auf 12,2 Millionen synthetischen Bildern, sind Modell und Datensatz unter der NVIDIA Open Model License und CC-BY-4.0 verfügbar.

NVIDIA hat am 17. April 2026 auf HuggingFace Nemotron OCR v2 veröffentlicht — die zweite Generation seiner optischen Zeichenerkennung. Die Autoren Bo Liu, Ryan Chesler, Yuri Babakhin und pCriisS haben Leistungen erreicht, die den Industriestandard neu definieren — 34,7 Seiten pro Sekunde auf einer einzelnen A100-GPU für das mehrsprachige Modell.

Geschwindigkeit und Benchmarks

Im OmniDocBench-Benchmark, Nemotron OCR v2 (mehrsprachig) im Vergleich zur Konkurrenz:

ModellSeiten/s
PaddleOCR v51,2
OpenOCR1,5
Nemotron OCR v2 (multi)34,7
Nemotron OCR v2 (EN)40,7
EasyOCR0,4

Das ist 28-mal schneller als PaddleOCR v5 und 87-mal schneller als EasyOCR. Für ein Unternehmen, das täglich Millionen von Dokumenten verarbeitet, übersetzt sich der Unterschied zwischen 1 und 35 Seiten/s in dramatische Einsparungen bei GPU-Stunden.

Mehrsprachig in einem Modell

Die zentrale Innovation von v2 ist seine sprachagnostische Architektur. Ein einziges Modell deckt ab:

  • Englisch
  • Chinesisch (Vereinfacht und Traditionell)
  • Japanisch
  • Koreanisch
  • Russisch

Keine Spracherkennung erforderlich. Klassische OCR-Stacks verwenden separate Modelle für jede Sprache und müssen zunächst erkennen, welche Sprache im Bild vorkommt — was Latenz hinzufügt und bei gemischtsprachigen Dokumenten scheitern kann. Nemotron OCR v2 umgeht dies elegant durch 14.244 Zeichen in einem einzigen Zeichensatz (v1 hatte nur 855).

Synthetisches Training — 12,2 Millionen Bilder

Die größte technische Innovation liegt nicht in der Architektur selbst, sondern im Ansatz bei den Daten. NVIDIA hat eine synthetische Pipeline aufgebaut, die Folgendes generiert:

Insgesamt 12,2 Millionen Bilder über sechs Sprachen mit einer typischen Verteilung von 1,5 bis 2,3 Millionen pro Sprache (Train/Test/Val-Split).

Synthetische Pipeline

Textquelle: mOSCAR (mehrsprachiges Web-Corpus, 163 Sprachuntermengen)

Rendering-Engine: Modifiziertes SynthDoG mit Erweiterungen:

  • Mehrstufige Begrenzungsrahmen (Wort, Zeile, Absatz mit 4-Punkt-Quads)
  • Hierarchische Leseordnungsgraphen (inspiriert vom HierText-Projekt)
  • Vielfältige Layout-Modi: mehrspaltiger Text, verstreuter Text, vertikale Spalten, Tabellen, Folien, Dokumente
  • 165 bis 1.258 Open-Source-Schriftarten pro Sprache (Google Fonts, Noto-Familie)
  • Zeilenerkennung für CJK-Sprachen (ohne Wortsegmentierung)

Augmentierungen:

  • Textebene: Ränder, Schatten, Extrusion, Kantenrauschen, Strichdeckkraft
  • Bildebene: morphologische Operatoren, Medianunschärfe, elastische Verzerrung
  • Seitenebene: Kontrast-/Helligkeitsschwankungen, Gaußsche-/Bewegungsunschärfe, Schatten

FOTS-Architektur

Drei Komponenten, ein Backbone:

  1. Textdetektor (RegNetX-8GF)
  2. Text-Recognizer (6-schichtiger Pre-Norm Transformer für mehrsprachig)
  3. Relationsmodell (kompakter Transformer-Encoder)

Der Schlüssel zur Effizienz ist der gemeinsame Convolutional Backbone — die Eingabe wird einmal verarbeitet, und Feature-Reuse über alle drei Komponenten eliminiert redundante Berechnungen. Darin begründet sich die 28-fache Beschleunigung gegenüber Cascade-Pipelines, bei denen jede Stufe die Eingabe erneut verarbeitet.

Die Qualität ist ebenso beeindruckend wie die Geschwindigkeit

Normalized Edit Distance (NED) im SynthDoG mehrsprachigen Benchmark — niedriger ist besser:

SprachePaddleOCROpenOCRNemotron v1Nemotron v2
Englisch0,1170,1050,0780,069
Japanisch0,2010,5860,7230,046
Koreanisch0,1330,8370,9230,047
Russisch0,1630,9500,5640,043
Chinesisch V.0,0540,0610,7840,035
Chinesisch T.0,0940,1270,7000,065

Der v1 → v2 Sprung ist dramatisch. Japanisch von 0,723 auf 0,046. Koreanisch von 0,923 auf 0,047. Traditionelles Chinesisch von 0,700 auf 0,065. Das sind Verbesserungen um Größenordnungen.

Lizenzierung und Verfügbarkeit

  • Modell: nvidia/nemotron-ocr-v2 auf HuggingFace
  • Datensatz: nvidia/OCR-Synthetic-Multilingual-v1 (12,2M Bilder)
  • Demo: Space auf HuggingFace für Live-Tests
  • Modelllizenz: NVIDIA Open Model License (kommerzielle Nutzung erlaubt)
  • Datensatzlizenz: CC-BY-4.0

Der offene Datensatz ist besonders wertvoll — Forschungsgruppen haben nun Zugang zur Pipeline, um ihre eigenen OCR-Modelle mit derselben Methodik zu kalibrieren.

Warum das bedeutsam ist

Nemotron OCR v2 stellt einen Moment dar, in dem synthetische Daten als vollständig ausreichend für Aufgaben demonstriert werden, die traditionell teures manuelles Labeling erforderten. Die synthetische Pipeline ist günstiger, skalierbarer und — was am wichtigsten ist — deckt Sprachen ab, für die es nicht genügend echte Trainingsdaten gibt.

Für Unternehmen, die OCR als Komponente ihres KI-Stacks möchten, insbesondere für mehrsprachige Dokument-Workflows, setzt Nemotron OCR v2 eine neue Basis — nicht nur für Qualität, sondern auch für Wirtschaftlichkeit.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.