Mistral: OCR 4 — 170言語でバウンディングボックスによる構造化ドキュメント抽出
Mistral OCR 4はOlmOCRBenchで85.20ポイントでリーダーボードのトップを達成する新しい光学文字認識モデルです。170言語をサポートし、段落レベルのバウンディングボックスをもたらします——すべて1000ページあたり4ドルの価格で。
この記事はAIにより一次情報源から生成されました。
Mistral AIはOCR 4を発表しました——スキャンされたデジタル文書からテキストだけでなくページ全体の構造を空間座標で抽出する新しい光学文字認識モデルです。
Mistral OCR 4の新機能
モデルはmistral-ocr-4-0として識別されます。mistral-ocr-latestエイリアスは現在このバージョンを指しています。主な新機能は、ページ上の各段落の位置と読み取り順を定義する矩形フレームである段落レベルのバウンディングボックスを含むblocks配列を返すinclude_blocksパラメータです。座標に加えて、各ブロックは見出し、表、方程式、キャプション、ヘッダー、またはフッターという構造タグを持ちます。
ベンチマーク:すべての指標でリーダーボードのトップ
Mistral OCR 4はOlmOCRBenchで85.20ポイントを達成——現在そのリーダーボードで最高の結果——OmniDocBenchでは93.07ポイントです。内部の多言語クロールテストでは98ポイントを達成しています。人間の好みでは、モデルはテストされた代替品に対して平均72%の勝率を記録しており、これは以前のMistral OCRバージョンと比較して注目すべき向上です。
170言語のサポートとデプロイメントオプション
モデルは10の言語グループに分類された170言語をカバーし、入力形式はPDF、DOC、PPT、OpenDocumentファイルを含みます。データ主権を重視する組織にとって、Mistral OCR 4は単一コンテナ内のセルフホストソリューションとして提供されています——ドキュメントを外部サーバーに送信する必要はありません。AWS SageMaker、Microsoft Foundry、Snowflakeとの統合も利用可能です。
価格と利用可能性
標準APIは1000ページあたり4ドルで、Batch APIはコストを1000ページあたり2ドルに削減します——大規模なアーカイブ処理に魅力的です。Document AIプラットフォームでは価格は1000ページあたり5ドルです。構造ブロックを提供していなかった以前のMistral OCRバージョンと比較して、OCR 4は同じインフラでRAGシステムやデジタルアーカイブでのさらなる処理に適したはるかにリッチな出力をもたらします。
よくある質問
- OCRとは何ですか?Mistral OCR 4はどのような用途に使われますか?
- OCR(光学文字認識)は、テキストの画像やスキャンされた文書を機械で読み取れるテキストに変換する技術です。Mistral OCR 4はさらに一歩進んで、テキスト抽出に加えて見出し、表、キャプションなどの構造的タグと各段落の空間座標(バウンディングボックス)を返します。
- Mistral OCR 4の競合他社との比較でのコストはどうですか?
- APIの価格は1000ページあたり4ドルで、Batch APIでは1000ページあたり2ドルです。Document AIプラットフォームでは1000ページあたり5ドルです。