🟡 🤖 模型 发布于: · 1 分钟阅读 ·

Mistral:OCR 4——支持170种语言的结构化文档提取与边界框

编辑插图:扫描的纸质文档,多语言段落和边界框被标注高亮

Mistral OCR 4是一款新的光学字符识别模型,在OlmOCRBench上以85.20分位居榜首,支持170种语言,并带来段落级边界框——每1000页定价4美元。

🤖

本文由人工智能基于一手来源生成。

Mistral AI发布OCR 4——新一代光学字符识别模型,不仅从扫描和数字文档中提取文本,还提取完整的页面结构和段落空间坐标。

Mistral OCR 4带来哪些新功能?

该模型标识符为mistral-ocr-4-0;别名mistral-ocr-latest现已指向此版本。核心新功能是include_blocks参数,返回带有段落级边界框blocks数组——即定义每个段落在页面上位置及阅读顺序的矩形框。除坐标外,每个块还携带结构标注:标题、表格、公式、签名、页眉或页脚。

基准测试:各项指标排名第一

Mistral OCR 4在OlmOCRBench上取得85.20分——当前该排行榜最高分——并在OmniDocBench上获得93.07分。在内部多语言Crawl Multilingual测试中达到98分。在人类偏好评估中,该模型相比测试中的其他方案平均胜率达72%,相比Mistral以往OCR版本有显著提升。

支持170种语言与部署选项

该模型覆盖170种语言,划分为10个语言组,支持PDF、DOC、PPT和OpenDocument格式。对于重视数据主权的组织,Mistral OCR 4提供自托管方案,以单容器形式部署,文档无需发送至外部服务器。集成方案还涵盖AWS SageMaker、Microsoft Foundry和Snowflake。

定价与可用性

标准API定价为每1000页4美元,批量API将成本降至每1000页2美元——非常适合大规模档案处理。Document AI平台定价为每1000页5美元。与此前不提供结构块的Mistral OCR版本相比,OCR 4以相同基础设施成本提供丰富得多的输出,可直接用于RAG系统和数字档案的后续处理。

常见问题

什么是OCR,Mistral OCR 4有何用途?
OCR(光学字符识别)是将图像文本或扫描文档转换为机器可读文本的技术。Mistral OCR 4更进一步:除文本提取外,还返回标题、表格、签名等结构标注,以及每个段落的空间坐标(边界框)。
Mistral OCR 4与竞品相比价格如何?
API定价为每1000页4美元,批量API为每1000页2美元,Document AI平台为每1000页5美元。