NVIDIA Nemotron OCR v2:毎秒34.7ページ、1モデルで5言語対応、PaddleOCRの28倍速
なぜ重要か
NVIDIAはHuggingFaceでNemotron OCR v2を公開しました。これは単一のA100 GPUで毎秒34.7ページを処理する多言語OCRモデルです。PaddleOCR v5の28倍速です。モデルは単一のアーキテクチャで英語、中国語、日本語、韓国語、ロシア語をサポートし、言語検出は不要です。1,220万枚の合成画像でトレーニングされ、モデルとデータセットはNVIDIA Open ModelライセンスとCC-BY-4.0で提供されています。
NVIDIAは2026年4月17日にHuggingFaceでNemotron OCR v2を公開しました。光学文字認識の第二世代です。Bo Liu、Ryan Chesler、Yuri Babakhin、pCriisS らの著者が達成したパフォーマンスは業界標準を再定義しています——多言語モデルが単一のA100 GPUで毎秒34.7ページを処理します。
速度とベンチマーク
OmniDocBenchベンチマークでのNemotron OCR v2(多言語)vs 競合他社:
| モデル | ページ/秒 |
|---|---|
| PaddleOCR v5 | 1.2 |
| OpenOCR | 1.5 |
| Nemotron OCR v2(多言語) | 34.7 |
| Nemotron OCR v2(英語) | 40.7 |
| EasyOCR | 0.4 |
PaddleOCR v5の28倍速、EasyOCRの87倍速です。毎日数百万件のドキュメントを処理するエンタープライズにとって、1ページ/秒と35ページ/秒の差はGPU時間の劇的な節約を意味します。
1モデルで多言語対応
v2の重要なイノベーションは言語非依存アーキテクチャです。1つのモデルがカバーします:
- 英語
- 中国語(簡体字・繁体字)
- 日本語
- 韓国語
- ロシア語
言語検出不要。 従来のOCRスタックは言語ごとに別々のモデルを持ち、画像内の言語を最初に検出する必要があります——これがレイテンシを追加し、混合文書でエラーを起こす可能性があります。Nemotron OCR v2は1つの文字セットに14,244文字(v1は855文字のみ)を持つことでこれを優雅に回避します。
合成トレーニング——1,220万枚の画像
最大の技術的イノベーションはアーキテクチャ自体ではなく、データへのアプローチです。NVIDIAは合成パイプラインを構築し、以下を生成しました:
合計1,220万枚の画像、6言語にわたり、言語ごとの典型的な分布は150万〜230万枚(train/test/val分割)。
合成パイプライン
テキストソース: mOSCAR(多言語Webコーパス、163言語サブセット)
レンダリングエンジン: 拡張されたModified SynthDoG:
- マルチレベルバウンディングボックス(4点クワッドを持つ単語・行・段落)
- 階層的読み取り順序グラフ(HierTextプロジェクトに触発)
- 多様なレイアウト:マルチカラムテキスト、散在テキスト、縦列、表、スライド、文書
- 言語ごとに165〜1,258のオープンソースフォント(Google Fonts、Notoファミリー)
- CJK言語の行レベル認識(単語分割なし)
オーグメンテーション:
- テキストレベル:エッジ、影、押し出し、エッジノイズ、ストローク不透明度
- 画像レベル:形態学的演算子、メジアンブラー、弾性変形
- ページレベル:コントラスト/明るさジッター、ガウス/モーションブラー、影
FOTSアーキテクチャ
3コンポーネント、1バックボーン:
- テキスト検出器(RegNetX-8GF)
- テキスト認識器(多言語版6層プレノームTransformer)
- 関係モデル(コンパクトTransformerエンコーダー)
効率性の鍵は共有畳み込みバックボーン——入力は一度だけ処理され、3コンポーネント間の特徴再利用が冗長な計算を排除します。これがカスケードパイプラインに対する28倍の高速化の源です。
品質も速度と同様に優れている
SynthDoG多言語ベンチマークでの正規化編集距離(NED)——低いほど良い:
| 言語 | PaddleOCR | OpenOCR | Nemotron v1 | Nemotron v2 |
|---|---|---|---|---|
| 英語 | 0.117 | 0.105 | 0.078 | 0.069 |
| 日本語 | 0.201 | 0.586 | 0.723 | 0.046 |
| 韓国語 | 0.133 | 0.837 | 0.923 | 0.047 |
| ロシア語 | 0.163 | 0.950 | 0.564 | 0.043 |
| 簡体字中国語 | 0.054 | 0.061 | 0.784 | 0.035 |
| 繁体字中国語 | 0.094 | 0.127 | 0.700 | 0.065 |
v1からv2へのジャンプは劇的です。日本語で0.723から0.046へ。韓国語で0.923から0.047へ。繁体字中国語で0.700から0.065へ。これは桁違いの改善です。
ライセンスと可用性
- モデル: HuggingFaceの
nvidia/nemotron-ocr-v2 - データセット:
nvidia/OCR-Synthetic-Multilingual-v1(1,220万枚の画像) - デモ: ライブテスト用HuggingFace Space
- モデルライセンス: NVIDIA Open Model License(商業利用可能)
- データセットライセンス: CC-BY-4.0
オープンデータセットは特に価値があります——研究グループが同じ手法論を使って独自のOCRモデルを較正するためのパイプラインにアクセスできるようになります。
なぜこれが重要か
Nemotron OCR v2は、合成データが従来は高価な手動ラベリングを必要としたタスクに対して完全に適切であることが実証される瞬間を代表しています。合成パイプラインはより安価で、スケーラブルで——最も重要なことに——十分な実際のトレーニングデータが存在しない言語をカバーします。
特に多言語ドキュメントワークフロー向けにOCRをAIスタックのコンポーネントとして考えているエンタープライズにとって、Nemotron OCR v2は品質だけでなく経済性においても新しい基準を設定しました。
この記事はAIにより一次情報源から生成されました。