Nemotron OCR v2는 어떻게 그런 속도를 달성합니까?

아키텍처는 FOTS(Fast Oriented Text Spotting) 기반으로 단일 컨볼루션 백본을 공유하는 세 가지 구성 요소——텍스트 검출기(RegNetX-8GF), 인식기(6레이어 사전 정규화 Transformer), 관계 모델——로 구성됩니다. 입력이 한 번만 처리되며 세 구성 요소 간의 특징 재사용으로 중복 계산이 제거됩니다.

v2_english와 v2_multilingual의 차이는 무엇입니까?

영어 버전은 54M 파라미터, 3레이어 인식기, 855자, 초당 40.7페이지입니다. 다국어 버전은 84M 파라미터, 6레이어 인식기, 14,244자, 초당 34.7페이지——동일한 모델 가중치로 5개 언어를 커버합니다.

v1에 비해 품질이 얼마나 향상되었습니까?

극적인 향상입니다. v1은 비영어 언어에서 NED 점수가 0.56~0.92(실용 불가능)였습니다. v2는 모든 언어에서 NED 0.035~0.069를 달성——오류를 한 자릿수 감소시켰습니다.

NVIDIA Nemotron OCR v2：초당 34.7페이지, 단일 모델로 5개 언어, PaddleOCR보다 28배 빠름

NVIDIA는 2026년 4월 17일 HuggingFace에 Nemotron OCR v2를 공개했습니다. 광학 문자 인식의 두 번째 세대입니다. 저자 Bo Liu, Ryan Chesler, Yuri Babakhin, pCriisS가 달성한 성능은 업계 표준을 재정의합니다——다국어 모델이 단일 A100 GPU에서 초당 34.7페이지를 처리합니다.

속도 및 벤치마크

OmniDocBench 벤치마크에서 Nemotron OCR v2(다국어) 대 경쟁사:

모델	페이지/초
PaddleOCR v5	1.2
OpenOCR	1.5
Nemotron OCR v2(다국어)	34.7
Nemotron OCR v2(영어)	40.7
EasyOCR	0.4

PaddleOCR v5보다 28배 빠르고 EasyOCR보다 87배 빠릅니다. 매일 수백만 개의 문서를 처리하는 기업에게 1페이지/초와 35페이지/초의 차이는 GPU 시간의 극적인 절감을 의미합니다.

단일 모델로 다국어

v2의 핵심 혁신은 언어 불가지론적 아키텍처입니다. 단일 모델이 커버합니다:

영어
중국어(간체 및 번체)
일본어
한국어
러시아어

언어 감지 불필요. 기존 OCR 스택은 각 언어에 대해 별도 모델을 갖고 있으며 이미지의 언어를 먼저 감지해야 합니다——이는 레이턴시를 추가하고 혼합 문서에서 오류를 낼 수 있습니다. Nemotron OCR v2는 단일 문자 집합에 14,244개의 문자(v1은 855개에 불과)를 갖음으로써 이를 우아하게 방지합니다.

합성 훈련——1,220만 개 이미지

가장 큰 기술적 혁신은 아키텍처 자체가 아니라 데이터에 대한 접근 방식입니다. NVIDIA는 합성 파이프라인을 구축하여 다음을 생성했습니다:

총 1,220만 개의 이미지, 6개 언어에 걸쳐, 언어별 일반적인 분포는 150만~230만 개(train/test/val 분할).

합성 파이프라인

텍스트 소스: mOSCAR(다국어 웹 코퍼스, 163개 언어 서브셋)

렌더링 엔진: 확장된 Modified SynthDoG:

멀티 레벨 경계 상자(4점 쿼드를 가진 단어, 줄, 단락)
계층적 읽기 순서 그래프(HierText 프로젝트에서 영감)
다양한 레이아웃: 다중 열 텍스트, 분산 텍스트, 세로 열, 표, 슬라이드, 문서
언어당 165~1,258개의 오픈소스 폰트(Google Fonts, Noto 패밀리)
CJK 언어를 위한 줄 수준 인식(단어 분할 없음)

증강:

텍스트 수준: 에지, 그림자, 돌출, 에지 노이즈, 획 불투명도
이미지 수준: 형태학적 연산자, 중간값 블러, 탄성 변형
페이지 수준: 대비/밝기 지터, 가우시안/모션 블러, 그림자

FOTS 아키텍처

세 구성 요소, 하나의 백본:

텍스트 검출기 (RegNetX-8GF)
텍스트 인식기 (다국어용 6레이어 사전 정규화 Transformer)
관계 모델 (컴팩트 Transformer 인코더)

효율성의 핵심은 공유 컨볼루션 백본——입력이 한 번만 처리되며 세 구성 요소 간의 특징 재사용이 중복 계산을 제거합니다. 이것이 각 단계에서 입력을 다시 처리하는 캐스케이드 파이프라인 대비 28배 가속의 원천입니다.

품질도 속도만큼 우수함

SynthDoG 다국어 벤치마크에서의 정규화 편집 거리(NED)——낮을수록 좋음:

언어	PaddleOCR	OpenOCR	Nemotron v1	Nemotron v2
영어	0.117	0.105	0.078	0.069
일본어	0.201	0.586	0.723	0.046
한국어	0.133	0.837	0.923	0.047
러시아어	0.163	0.950	0.564	0.043
간체 중국어	0.054	0.061	0.784	0.035
번체 중국어	0.094	0.127	0.700	0.065

v1에서 v2로의 도약은 극적입니다. 일본어에서 0.723에서 0.046으로. 한국어에서 0.923에서 0.047로. 번체 중국어에서 0.700에서 0.065로. 이는 한 자릿수 수준의 개선입니다.

라이선스 및 가용성

모델: HuggingFace의 nvidia/nemotron-ocr-v2
데이터셋: nvidia/OCR-Synthetic-Multilingual-v1 (1,220만 개 이미지)
데모: 실시간 테스트를 위한 HuggingFace Space
모델 라이선스: NVIDIA Open Model License (상업적 사용 허용)
데이터셋 라이선스: CC-BY-4.0

오픈 데이터셋은 특히 가치 있습니다——연구 그룹들이 이제 같은 방법론으로 자체 OCR 모델을 보정하기 위한 파이프라인에 접근할 수 있습니다.

왜 이것이 중요한가

Nemotron OCR v2는 합성 데이터가 전통적으로 비싼 수동 라벨링을 필요로 했던 작업에 완전히 적합하다는 것이 입증되는 순간을 대표합니다. 합성 파이프라인은 더 저렴하고 확장 가능하며——가장 중요하게——충분한 실제 훈련 데이터가 없는 언어를 커버합니다.

특히 다국어 문서 워크플로에서 OCR을 AI 스택의 구성 요소로 원하는 기업에게 Nemotron OCR v2는 품질뿐만 아니라 경제성에서도 새로운 기준을 세웁니다.