Mistral: OCR 4 — strukturierte Dokumentenextraktion mit Bounding Boxes in 170 Sprachen
Mistral OCR 4 ist ein neues Modell zur optischen Zeichenerkennung, das mit 85,20 Punkten die Spitze des OlmOCRBench erreicht, 170 Sprachen unterstützt und Bounding Boxes auf Absatzebene liefert — alles zu einem Preis von 4 USD pro 1.000 Seiten.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Mistral AI hat OCR 4 veröffentlicht — ein neues Modell zur optischen Zeichenerkennung (engl. Optical Character Recognition), das aus gescannten und digitalen Dokumenten nicht nur Text, sondern die gesamte Seitenstruktur mit räumlichen Koordinaten der Absätze extrahiert.
Was bringt Mistral OCR 4 Neues?
Das Modell wird als mistral-ocr-4-0 identifiziert; der Alias mistral-ocr-latest zeigt jetzt auf diese Version. Die wichtigste Neuerung ist der Parameter include_blocks, der ein Array blocks mit Bounding Boxes auf Absatzebene zurückgibt — rechteckige Rahmen, die die Position jedes Absatzes auf der Seite zusammen mit der Lesereihenfolge definieren. Neben den Koordinaten trägt jeder Block eine strukturelle Markierung: Überschrift, Tabelle, Gleichung, Beschriftung, Kopf- oder Fußzeile.
Benchmarks: Spitzenposition auf allen Messskalen
Mistral OCR 4 erreicht 85,20 Punkte auf OlmOCRBench — derzeit das höchste Ergebnis auf dieser Bestenliste — und 93,07 Punkte auf OmniDocBench. Beim internen mehrsprachigen Crawl Multilingual-Test erreicht es 98 Punkte. Bei menschlichen Präferenzen verzeichnet das Modell eine durchschnittliche Gewinnrate von 72 % gegenüber getesteten Alternativen — ein bemerkenswerter Sprung gegenüber früheren Mistral OCR-Versionen.
Unterstützung für 170 Sprachen und Bereitstellungsoptionen
Das Modell deckt 170 Sprachen ab, aufgeteilt in 10 Sprachgruppen, und die Eingabeformate umfassen PDF, DOC, PPT und OpenDocument-Dateien. Für Organisationen, denen Datensouveränität wichtig ist, ist Mistral OCR 4 als Self-Hosted-Lösung in einem einzigen Container verfügbar — ohne Versenden von Dokumenten an externe Server. Integrationen sind auch auf AWS SageMaker, Microsoft Foundry und Snowflake verfügbar.
Preise und Verfügbarkeit
Die Standard-API berechnet 4 USD pro 1.000 Seiten, während die Batch-API die Kosten auf 2 USD pro 1.000 Seiten senkt — was sie für die Massenverarbeitung von Archiven attraktiv macht. Auf der Document AI-Plattform beträgt der Preis 5 USD pro 1.000 Seiten. Im Vergleich zu früheren Mistral OCR-Versionen, die keine strukturellen Blöcke boten, liefert OCR 4 für dieselbe Infrastruktur eine deutlich reichhaltigere Ausgabe, die für die weitere Verarbeitung in RAG-Systemen und digitalen Archiven geeignet ist.
Häufig gestellte Fragen
- Was ist OCR, und wofür dient Mistral OCR 4?
- OCR (Optical Character Recognition — optische Zeichenerkennung) ist eine Technologie, die Bilder von Text oder gescannten Dokumenten in maschinenlesbaren Text umwandelt. Mistral OCR 4 geht einen Schritt weiter: Neben der Textextraktion gibt es strukturelle Markierungen wie Überschriften, Tabellen und Beschriftungen sowie räumliche Koordinaten (Bounding Boxes) für jeden Absatz zurück.
- Was kostet Mistral OCR 4 im Vergleich zur Konkurrenz?
- Der API-Preis beträgt 4 USD pro 1.000 Seiten, und die Batch-API bietet einen Preis von 2 USD pro 1.000 Seiten. Auf der Document AI-Plattform beträgt der Preis 5 USD pro 1.000 Seiten.
Quellen
Verwandte Nachrichten
arXiv:2606.23181: DART — adaptives Denken in hybriden Reasoning-Modellen ohne Training
PyTorch/SGLang: DeepSeek-V4 Pro auf NVIDIA GB300 — 5× höherer Durchsatz bei gleichem Interaktivitätsniveau
arXiv:2606.20560: DiffusionGemma ebenso interpretierbar wie Gemma 4 — 28,6×-Lücke auf 1,1× reduziert