Nemotron OCR v2はどのようにしてそのような速度を実現していますか？

アーキテクチャはFOTS（Fast Oriented Text Spotting）ベースで、単一の畳み込みバックボーンを共有する3つのコンポーネント——テキスト検出器（RegNetX-8GF）、認識器（6層プレノームTransformer）、関係モデル——からなります。入力は一度だけ処理され、3コンポーネント間の特徴再利用が冗長な計算を排除します。

v2_englishとv2_multilingualの違いは何ですか？

英語版は54Mパラメータ、3層認識器、855文字、毎秒40.7ページ。多言語版は84Mパラメータ、6層認識器、14,244文字、毎秒34.7ページ——同じモデルの重みで5言語をカバーします。

v1と比べて品質はどれだけ向上しましたか？

劇的な改善です。v1は非英語言語でNEDスコア0.56〜0.92（実用不可）でした。v2は全言語でNED 0.035〜0.069を達成——エラーを一桁削減しました。

NVIDIA Nemotron OCR v2：毎秒34.7ページ、1モデルで5言語対応、PaddleOCRの28倍速

NVIDIAは2026年4月17日にHuggingFaceでNemotron OCR v2を公開しました。光学文字認識の第二世代です。Bo Liu、Ryan Chesler、Yuri Babakhin、pCriisS らの著者が達成したパフォーマンスは業界標準を再定義しています——多言語モデルが単一のA100 GPUで毎秒34.7ページを処理します。

速度とベンチマーク

OmniDocBenchベンチマークでのNemotron OCR v2（多言語）vs 競合他社：

モデル	ページ/秒
PaddleOCR v5	1.2
OpenOCR	1.5
Nemotron OCR v2（多言語）	34.7
Nemotron OCR v2（英語）	40.7
EasyOCR	0.4

PaddleOCR v5の28倍速、EasyOCRの87倍速です。毎日数百万件のドキュメントを処理するエンタープライズにとって、1ページ/秒と35ページ/秒の差はGPU時間の劇的な節約を意味します。

1モデルで多言語対応

v2の重要なイノベーションは言語非依存アーキテクチャです。1つのモデルがカバーします：

英語
中国語（簡体字・繁体字）
日本語
韓国語
ロシア語

言語検出不要。 従来のOCRスタックは言語ごとに別々のモデルを持ち、画像内の言語を最初に検出する必要があります——これがレイテンシを追加し、混合文書でエラーを起こす可能性があります。Nemotron OCR v2は1つの文字セットに14,244文字（v1は855文字のみ）を持つことでこれを優雅に回避します。

合成トレーニング——1,220万枚の画像

最大の技術的イノベーションはアーキテクチャ自体ではなく、データへのアプローチです。NVIDIAは合成パイプラインを構築し、以下を生成しました：

合計1,220万枚の画像、6言語にわたり、言語ごとの典型的な分布は150万〜230万枚（train/test/val分割）。

合成パイプライン

テキストソース： mOSCAR（多言語Webコーパス、163言語サブセット）

レンダリングエンジン： 拡張されたModified SynthDoG：

マルチレベルバウンディングボックス（4点クワッドを持つ単語・行・段落）
階層的読み取り順序グラフ（HierTextプロジェクトに触発）
多様なレイアウト：マルチカラムテキスト、散在テキスト、縦列、表、スライド、文書
言語ごとに165〜1,258のオープンソースフォント（Google Fonts、Notoファミリー）
CJK言語の行レベル認識（単語分割なし）

オーグメンテーション：

テキストレベル：エッジ、影、押し出し、エッジノイズ、ストローク不透明度
画像レベル：形態学的演算子、メジアンブラー、弾性変形
ページレベル：コントラスト/明るさジッター、ガウス/モーションブラー、影

FOTSアーキテクチャ

3コンポーネント、1バックボーン：

テキスト検出器（RegNetX-8GF）
テキスト認識器（多言語版6層プレノームTransformer）
関係モデル（コンパクトTransformerエンコーダー）

効率性の鍵は共有畳み込みバックボーン——入力は一度だけ処理され、3コンポーネント間の特徴再利用が冗長な計算を排除します。これがカスケードパイプラインに対する28倍の高速化の源です。

品質も速度と同様に優れている

SynthDoG多言語ベンチマークでの正規化編集距離（NED）——低いほど良い：

言語	PaddleOCR	OpenOCR	Nemotron v1	Nemotron v2
英語	0.117	0.105	0.078	0.069
日本語	0.201	0.586	0.723	0.046
韓国語	0.133	0.837	0.923	0.047
ロシア語	0.163	0.950	0.564	0.043
簡体字中国語	0.054	0.061	0.784	0.035
繁体字中国語	0.094	0.127	0.700	0.065

v1からv2へのジャンプは劇的です。日本語で0.723から0.046へ。韓国語で0.923から0.047へ。繁体字中国語で0.700から0.065へ。これは桁違いの改善です。

ライセンスと可用性

モデル： HuggingFaceのnvidia/nemotron-ocr-v2
データセット： nvidia/OCR-Synthetic-Multilingual-v1（1,220万枚の画像）
デモ： ライブテスト用HuggingFace Space
モデルライセンス： NVIDIA Open Model License（商業利用可能）
データセットライセンス： CC-BY-4.0

オープンデータセットは特に価値があります——研究グループが同じ手法論を使って独自のOCRモデルを較正するためのパイプラインにアクセスできるようになります。

なぜこれが重要か

Nemotron OCR v2は、合成データが従来は高価な手動ラベリングを必要としたタスクに対して完全に適切であることが実証される瞬間を代表しています。合成パイプラインはより安価で、スケーラブルで——最も重要なことに——十分な実際のトレーニングデータが存在しない言語をカバーします。

特に多言語ドキュメントワークフロー向けにOCRをAIスタックのコンポーネントとして考えているエンタープライズにとって、Nemotron OCR v2は品質だけでなく経済性においても新しい基準を設定しました。