Mistral OCR 4：170种语言与边界框

Mistral OCR 4是一款新的光学字符识别模型，在OlmOCRBench上以85.20分位居榜首，支持170种语言，并带来段落级边界框——每1000页定价4美元。

Mistral AI发布OCR 4——新一代光学字符识别模型，不仅从扫描和数字文档中提取文本，还提取完整的页面结构和段落空间坐标。

Mistral OCR 4带来哪些新功能？

该模型标识符为mistral-ocr-4-0；别名mistral-ocr-latest现已指向此版本。核心新功能是include_blocks参数，返回带有段落级边界框的blocks数组——即定义每个段落在页面上位置及阅读顺序的矩形框。除坐标外，每个块还携带结构标注：标题、表格、公式、签名、页眉或页脚。

基准测试：各项指标排名第一

Mistral OCR 4在OlmOCRBench上取得85.20分——当前该排行榜最高分——并在OmniDocBench上获得93.07分。在内部多语言Crawl Multilingual测试中达到98分。在人类偏好评估中，该模型相比测试中的其他方案平均胜率达72%，相比Mistral以往OCR版本有显著提升。

支持170种语言与部署选项

该模型覆盖170种语言，划分为10个语言组，支持PDF、DOC、PPT和OpenDocument格式。对于重视数据主权的组织，Mistral OCR 4提供自托管方案，以单容器形式部署，文档无需发送至外部服务器。集成方案还涵盖AWS SageMaker、Microsoft Foundry和Snowflake。

定价与可用性

标准API定价为每1000页4美元，批量API将成本降至每1000页2美元——非常适合大规模档案处理。Document AI平台定价为每1000页5美元。与此前不提供结构块的Mistral OCR版本相比，OCR 4以相同基础设施成本提供丰富得多的输出，可直接用于RAG系统和数字档案的后续处理。

常见问题

什么是OCR，Mistral OCR 4有何用途？

OCR（光学字符识别）是将图像文本或扫描文档转换为机器可读文本的技术。Mistral OCR 4更进一步：除文本提取外，还返回标题、表格、签名等结构标注，以及每个段落的空间坐标（边界框）。

Mistral OCR 4与竞品相比价格如何？

API定价为每1000页4美元，批量API为每1000页2美元，Document AI平台为每1000页5美元。

Mistral：OCR 4——支持170种语言的结构化文档提取与边界框

Mistral OCR 4带来哪些新功能？

基准测试：各项指标排名第一

支持170种语言与部署选项

定价与可用性

常见问题

来源

相关新闻