🤖 24 AI
🟡 🤖 模型 2026年4月18日星期六 · 2 分钟阅读

NVIDIA Nemotron OCR v2:每秒34.7页,单模型支持五种语言,比PaddleOCR快28倍

为什么重要

NVIDIA在HuggingFace上发布了Nemotron OCR v2,这是一款多语言OCR模型,在单个A100 GPU上每秒处理34.7页。这比PaddleOCR v5快28倍。该模型在单一架构中支持英语、中文、日语、韩语和俄语,无需语言检测。在1220万张合成图像上训练完成,模型和数据集在NVIDIA Open Model许可证和CC-BY-4.0下提供。

NVIDIA于2026年4月17日在HuggingFace上发布了Nemotron OCR v2,这是其光学字符识别的第二代。作者Bo Liu、Ryan Chesler、Yuri Babakhin和pCriisS实现的性能重新定义了行业标准——多语言模型在单个A100 GPU上每秒处理34.7页

速度与基准测试

OmniDocBench基准测试上,Nemotron OCR v2(多语言)与竞品的对比:

模型页/秒
PaddleOCR v51.2
OpenOCR1.5
Nemotron OCR v2(多语言)34.7
Nemotron OCR v2(英语)40.7
EasyOCR0.4

这比PaddleOCR v5快28倍,比EasyOCR快87倍。对于每天处理数百万份文档的企业而言,1页/秒与35页/秒之间的差异意味着GPU小时数的显著节省。

单模型多语言

v2的关键创新是语言无关架构。单一模型覆盖:

  • 英语
  • 中文(简体和繁体)
  • 日语
  • 韩语
  • 俄语

无需语言检测。 传统OCR技术栈为每种语言设有单独的模型,必须先检测图像中的语言——这增加了延迟,在混合文档中可能出错。Nemotron OCR v2通过单一字符集中的14,244个字符(v1只有855个)优雅地避免了这个问题。

合成训练——1,220万张图像

最大的技术创新不是架构本身,而是数据处理方式。NVIDIA构建了一个合成管道,生成了:

共1,220万张图像,涵盖六种语言,每种语言的典型分布为150万至230万张(训练/测试/验证拆分)。

合成管道

文本来源: mOSCAR(多语言网络语料库,163个语言子集)

渲染引擎: 修改版SynthDoG,带有扩展:

  • 多级边界框(带4点四边形的词、行、段落)
  • 层级阅读顺序图(受HierText项目启发)
  • 多样化布局:多列文本、分散文本、垂直列、表格、幻灯片、文档
  • 每种语言165至1,258个开源字体(Google Fonts、Noto系列)
  • CJK语言的行级识别(无需词分割)

数据增强:

  • 文本级:边缘、阴影、挤出、边缘噪声、笔划不透明度
  • 图像级:形态学算子、中值模糊、弹性变形
  • 页面级:对比度/亮度抖动、高斯/运动模糊、阴影

FOTS架构

三个组件,一个骨干网络:

  1. 文本检测器(RegNetX-8GF)
  2. 文本识别器(多语言版6层预归一化Transformer)
  3. 关系模型(紧凑型Transformer编码器)

效率的关键在于共享的卷积骨干网络——输入只处理一次,三个组件之间的特征复用消除了冗余计算。这就是相比级联管道实现28倍加速的原因,在级联管道中每个阶段都重新处理输入。

质量与速度同样出色

SynthDoG多语言基准上的归一化编辑距离(NED)——越低越好:

语言PaddleOCROpenOCRNemotron v1Nemotron v2
英语0.1170.1050.0780.069
日语0.2010.5860.7230.046
韩语0.1330.8370.9230.047
俄语0.1630.9500.5640.043
简体中文0.0540.0610.7840.035
繁体中文0.0940.1270.7000.065

v1到v2的提升是显著的。日语从0.723降至0.046。韩语从0.923降至0.047。繁体中文从0.700降至0.065。这是数量级的改进。

许可证和可用性

  • 模型: HuggingFace上的nvidia/nemotron-ocr-v2
  • 数据集: nvidia/OCR-Synthetic-Multilingual-v1(1,220万张图像)
  • 演示: HuggingFace上的Space,可进行实时测试
  • 模型许可证: NVIDIA Open Model License(允许商业使用)
  • 数据集许可证: CC-BY-4.0

开放数据集尤其有价值——研究团队现在可以访问同一方法论的管道,用于校准自己的OCR模型。

为何这很重要

Nemotron OCR v2代表了合成数据被证明完全适合传统上需要昂贵手动标注任务的时刻。合成管道更便宜、更易于扩展——最重要的是,它覆盖了真实训练数据不足的语言。

对于希望将OCR作为AI技术栈组件的企业,尤其是针对多语言文档工作流,Nemotron OCR v2设立了新的基准——不仅是质量,而且是经济性。

🤖

本文由人工智能基于一手来源生成。