🤖 24 AI
🟡 🤖 모델 2026년 4월 18일 토요일 · 3 분 읽기

NVIDIA Nemotron OCR v2:초당 34.7페이지, 단일 모델로 5개 언어, PaddleOCR보다 28배 빠름

왜 중요한가

NVIDIA가 HuggingFace에 Nemotron OCR v2를 공개했습니다. 이는 단일 A100 GPU에서 초당 34.7페이지를 처리하는 다국어 OCR 모델입니다. PaddleOCR v5보다 28배 빠릅니다. 모델은 단일 아키텍처에서 영어, 중국어, 일본어, 한국어, 러시아어를 지원하며 언어 감지가 필요하지 않습니다. 1,220만 개의 합성 이미지로 훈련되었으며, 모델과 데이터셋은 NVIDIA Open Model 라이선스와 CC-BY-4.0으로 제공됩니다.

NVIDIA는 2026년 4월 17일 HuggingFace에 Nemotron OCR v2를 공개했습니다. 광학 문자 인식의 두 번째 세대입니다. 저자 Bo Liu, Ryan Chesler, Yuri Babakhin, pCriisS가 달성한 성능은 업계 표준을 재정의합니다——다국어 모델이 단일 A100 GPU에서 초당 34.7페이지를 처리합니다.

속도 및 벤치마크

OmniDocBench 벤치마크에서 Nemotron OCR v2(다국어) 대 경쟁사:

모델페이지/초
PaddleOCR v51.2
OpenOCR1.5
Nemotron OCR v2(다국어)34.7
Nemotron OCR v2(영어)40.7
EasyOCR0.4

PaddleOCR v5보다 28배 빠르고 EasyOCR보다 87배 빠릅니다. 매일 수백만 개의 문서를 처리하는 기업에게 1페이지/초와 35페이지/초의 차이는 GPU 시간의 극적인 절감을 의미합니다.

단일 모델로 다국어

v2의 핵심 혁신은 언어 불가지론적 아키텍처입니다. 단일 모델이 커버합니다:

  • 영어
  • 중국어(간체 및 번체)
  • 일본어
  • 한국어
  • 러시아어

언어 감지 불필요. 기존 OCR 스택은 각 언어에 대해 별도 모델을 갖고 있으며 이미지의 언어를 먼저 감지해야 합니다——이는 레이턴시를 추가하고 혼합 문서에서 오류를 낼 수 있습니다. Nemotron OCR v2는 단일 문자 집합에 14,244개의 문자(v1은 855개에 불과)를 갖음으로써 이를 우아하게 방지합니다.

합성 훈련——1,220만 개 이미지

가장 큰 기술적 혁신은 아키텍처 자체가 아니라 데이터에 대한 접근 방식입니다. NVIDIA는 합성 파이프라인을 구축하여 다음을 생성했습니다:

총 1,220만 개의 이미지, 6개 언어에 걸쳐, 언어별 일반적인 분포는 150만~230만 개(train/test/val 분할).

합성 파이프라인

텍스트 소스: mOSCAR(다국어 웹 코퍼스, 163개 언어 서브셋)

렌더링 엔진: 확장된 Modified SynthDoG:

  • 멀티 레벨 경계 상자(4점 쿼드를 가진 단어, 줄, 단락)
  • 계층적 읽기 순서 그래프(HierText 프로젝트에서 영감)
  • 다양한 레이아웃: 다중 열 텍스트, 분산 텍스트, 세로 열, 표, 슬라이드, 문서
  • 언어당 165~1,258개의 오픈소스 폰트(Google Fonts, Noto 패밀리)
  • CJK 언어를 위한 줄 수준 인식(단어 분할 없음)

증강:

  • 텍스트 수준: 에지, 그림자, 돌출, 에지 노이즈, 획 불투명도
  • 이미지 수준: 형태학적 연산자, 중간값 블러, 탄성 변형
  • 페이지 수준: 대비/밝기 지터, 가우시안/모션 블러, 그림자

FOTS 아키텍처

세 구성 요소, 하나의 백본:

  1. 텍스트 검출기 (RegNetX-8GF)
  2. 텍스트 인식기 (다국어용 6레이어 사전 정규화 Transformer)
  3. 관계 모델 (컴팩트 Transformer 인코더)

효율성의 핵심은 공유 컨볼루션 백본——입력이 한 번만 처리되며 세 구성 요소 간의 특징 재사용이 중복 계산을 제거합니다. 이것이 각 단계에서 입력을 다시 처리하는 캐스케이드 파이프라인 대비 28배 가속의 원천입니다.

품질도 속도만큼 우수함

SynthDoG 다국어 벤치마크에서의 정규화 편집 거리(NED)——낮을수록 좋음:

언어PaddleOCROpenOCRNemotron v1Nemotron v2
영어0.1170.1050.0780.069
일본어0.2010.5860.7230.046
한국어0.1330.8370.9230.047
러시아어0.1630.9500.5640.043
간체 중국어0.0540.0610.7840.035
번체 중국어0.0940.1270.7000.065

v1에서 v2로의 도약은 극적입니다. 일본어에서 0.723에서 0.046으로. 한국어에서 0.923에서 0.047로. 번체 중국어에서 0.700에서 0.065로. 이는 한 자릿수 수준의 개선입니다.

라이선스 및 가용성

  • 모델: HuggingFace의 nvidia/nemotron-ocr-v2
  • 데이터셋: nvidia/OCR-Synthetic-Multilingual-v1 (1,220만 개 이미지)
  • 데모: 실시간 테스트를 위한 HuggingFace Space
  • 모델 라이선스: NVIDIA Open Model License (상업적 사용 허용)
  • 데이터셋 라이선스: CC-BY-4.0

오픈 데이터셋은 특히 가치 있습니다——연구 그룹들이 이제 같은 방법론으로 자체 OCR 모델을 보정하기 위한 파이프라인에 접근할 수 있습니다.

왜 이것이 중요한가

Nemotron OCR v2는 합성 데이터가 전통적으로 비싼 수동 라벨링을 필요로 했던 작업에 완전히 적합하다는 것이 입증되는 순간을 대표합니다. 합성 파이프라인은 더 저렴하고 확장 가능하며——가장 중요하게——충분한 실제 훈련 데이터가 없는 언어를 커버합니다.

특히 다국어 문서 워크플로에서 OCR을 AI 스택의 구성 요소로 원하는 기업에게 Nemotron OCR v2는 품질뿐만 아니라 경제성에서도 새로운 기준을 세웁니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.