🟡 🤖 모델 게시일: · 2 분 읽기 ·

Mistral: OCR 4 — 170개 언어에서 바운딩 박스를 사용한 구조화된 문서 추출

에디토리얼 일러스트레이션: 다양한 언어로 단락과 바운딩 박스가 표시된 스캔된 종이 문서

Mistral OCR 4는 OlmOCRBench에서 85.20점으로 최고 성적을 기록하고, 170개 언어를 지원하며, 단락 수준 바운딩 박스를 제공하는 새로운 광학 문자 인식 모델입니다. 가격은 1,000페이지당 4달러입니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Mistral AI가 OCR 4를 출시했습니다. 스캔 및 디지털 문서에서 텍스트뿐만 아니라 단락의 공간 좌표와 함께 전체 페이지 구조를 추출하는 새로운 광학 문자 인식 모델입니다.

Mistral OCR 4의 새로운 점

모델 식별자는 mistral-ocr-4-0이며, 별칭 mistral-ocr-latest가 이제 이 버전을 가리킵니다. 핵심 신기능은 단락 수준 바운딩 박스가 있는 blocks 배열을 반환하는 include_blocks 파라미터입니다. 이 직사각형 박스는 읽기 순서와 함께 페이지에서 각 단락의 위치를 정의합니다. 좌표 외에도 각 블록은 구조적 레이블을 담습니다. 제목, 표, 방정식, 서명, 머리글 또는 바닥글입니다.

벤치마크: 모든 측정에서 최고 성적

Mistral OCR 4는 OlmOCRBench에서 85.20점을 달성해 현재 해당 리더보드에서 최고 성적이며, OmniDocBench에서 93.07점을 기록합니다. 내부 다국어 Crawl Multilingual 테스트에서는 98점에 달합니다. 인간 선호도에서 모델은 테스트된 대안들 대비 평균 72% 승률을 기록하며, 이전 Mistral OCR 버전 대비 눈에 띄는 도약입니다.

170개 언어 지원과 배포 옵션

모델은 10개 언어 그룹에 걸쳐 170개 언어를 지원하며, 입력 형식에는 PDF, DOC, PPT, OpenDocument 파일이 포함됩니다. 데이터 주권이 중요한 조직을 위해 Mistral OCR 4는 단일 컨테이너 내 자체 호스팅 솔루션으로 제공됩니다. 문서를 외부 서버로 전송하지 않습니다. AWS SageMaker, Microsoft Foundry, Snowflake에서도 통합이 가능합니다.

가격과 가용성

표준 API는 1,000페이지당 4달러, Batch API는 1,000페이지당 2달러로 비용이 절감됩니다. 대량 아카이브 처리에 매력적입니다. Document AI 플랫폼에서는 1,000페이지당 5달러입니다. 구조적 블록을 제공하지 않았던 이전 Mistral OCR 버전과 비교하면, OCR 4는 동일한 인프라에서 RAG 시스템과 디지털 아카이브의 추가 처리에 적합한 훨씬 풍부한 출력을 제공합니다.

자주 묻는 질문

OCR이란 무엇이며 Mistral OCR 4는 어떤 용도로 사용됩니까?
OCR(Optical Character Recognition, 광학 문자 인식)은 텍스트 이미지나 스캔 문서를 기계가 읽을 수 있는 텍스트로 변환하는 기술입니다. Mistral OCR 4는 텍스트 추출 외에도 제목, 표, 서명 같은 구조적 레이블과 각 단락의 공간 좌표(바운딩 박스)를 반환합니다.
Mistral OCR 4의 비용은 경쟁사와 비교해 어떻습니까?
API 가격은 1,000페이지당 4달러이며, Batch API는 1,000페이지당 2달러입니다. Document AI 플랫폼에서는 1,000페이지당 5달러입니다.