Sind maschinelle Übersetzungen für eine solche Evaluation gut genug?

Ja. In der mmPISA-bench-Studie sind maschinelle Übersetzungen mit menschlichen vergleichbar, was zeigt, dass die Qualität synthetischer (maschinell übersetzter) Daten für eine groß angelegte Evaluation ausreicht. Das erleichtert den Aufbau mehrsprachiger Benchmarks, da er nicht ausschließlich von teuren menschlichen Übersetzungen abhängt.

arXiv: mmPISA-bench testet Reasoning in 43 Sprachen

Q: Was ist mmPISA-bench?

mmPISA-bench ist ein kompakter mehrsprachiger Benchmark für Reasoning (Schließen), abgeleitet aus den OECD-PISA-Tests. Er besteht aus 25 Multiple-Choice-Fragen, die Reasoning erfordern und in 43 Sprachen übersetzt sind. Neben offiziellen menschlichen Übersetzungen umfasst er auch maschinelle Übersetzungen, was insgesamt 2.150 Datenpunkte ergibt.

Q: Schließen Modelle in allen Sprachen gleich gut?

Den Ergebnissen zufolge schließen moderne Sprachmodelle in allen Sprachen effektiv, mit einer Genauigkeit, die menschlichen Probanden entspricht. Dennoch zeigen einige Sprachen zugleich höhere Inferenzkosten und geringere Genauigkeit, sodass die Unterschiede zwischen den Sprachen nicht ganz verschwunden sind.

Der kompakte mehrsprachige Reasoning-Benchmark mmPISA-bench leitet sich aus den OECD-PISA-Tests ab und umfasst 43 Sprachen mit insgesamt 2.150 Datenpunkten. Moderne LLMs schließen in allen Sprachen effektiv, und maschinelle Übersetzungen sind mit menschlichen vergleichbar. Einzelne Sprachen zeigen zugleich höhere Kosten und geringere Genauigkeit.

Forscher veröffentlichten am 5. Juni 2026 im arXiv-Repository eine Arbeit (Kennung arXiv:2606.07069), die mmPISA-bench vorstellt — einen kompakten mehrsprachigen Benchmark für das Reasoning (Schließen) von Sprachmodellen. Das Maß leitet sich aus den internationalen OECD-PISA-Tests ab und umfasst ganze 43 Sprachen, womit es direkt hinterfragt, wie einheitlich moderne Modelle unabhängig von der Sprache der Eingabe denken.

Was ist mmPISA-bench und woher stammt er?

Die Grundlage des Benchmarks bildet OECD PISA, das bekannte internationale Testverfahren zur Messung der Bildungsleistungen von Schülern. Daraus zogen die Autoren 25 Multiple-Choice-Fragen heraus, die echtes Reasoning erfordern und nicht das bloße Abrufen von Fakten.

Diese 25 Fragen wurden in 43 Sprachen in offiziellen menschlichen Übersetzungen übersetzt, und dazu wurden maschinelle Übersetzungen hinzugefügt. Die Kombination aller Sprachen und Übersetzungsarten ergibt insgesamt 2.150 Datenpunkte. Die Bezeichnung „kompakter” Benchmark ist hier verdient: Der Datensatz ist bewusst klein, aber sorgfältig konstruiert, um genau die Fähigkeit zum Reasoning zu messen.

Schließen Modelle in allen Sprachen gleich gut?

Der zentrale Befund der Arbeit ist ermutigend: moderne LLMs schließen in allen Sprachen effektiv, mit einer Genauigkeit, die menschlichen Probanden entspricht. Das bedeutet, dass die Fähigkeit, anspruchsvolle, logisch orientierte Fragen zu lösen, nicht nur dominanten Sprachen wie dem Englischen vorbehalten ist, sondern sich auch auf ressourcenärmere Sprachen überträgt.

Dennoch ist das Bild nicht ganz einheitlich. Die Autoren weisen darauf hin, dass einige Sprachen zugleich höhere Inferenzkosten und geringere Genauigkeit zeigen — mit anderen Worten: Für bestimmte Sprachen verbraucht das Modell mehr Ressourcen und erzielt dennoch ein schwächeres Ergebnis. Diese Asymmetrie bleibt ein offenes Feld für weitere Verbesserungen.

Sind maschinelle Übersetzungen von ausreichender Qualität?

Ein besonders praktischer Befund betrifft die maschinellen Übersetzungen. In der Studie sind sie mit menschlichen Übersetzungen vergleichbar, was nahelegt, dass die Qualität synthetischer Daten (maschinell erzeugter) für eine groß angelegte Evaluation ausreicht.

Für die Community ist das wichtig, da der Aufbau mehrsprachiger Benchmarks üblicherweise von teuren und langsamen menschlichen Übersetzungen abhängt. Wenn maschinelle Übersetzungen vergleichbare Ergebnisse liefern, eröffnet sich der Weg zu einem schnelleren und günstigeren Aufbau von Maßen, die viele Sprachen abdecken.

Warum ist dieser Benchmark relevant?

mmPISA-bench füllt eine Lücke in der Evaluation, da er sich auf Reasoning konzentriert und nicht nur auf Übersetzung oder Textverständnis, und das zugleich in einer großen Zahl von Sprachen. Damit gibt er ein klareres Bild davon, ob die fortgeschrittenen Fähigkeiten der Modelle tatsächlich global verfügbar oder in einer Handvoll Sprachen konzentriert sind.

Die Schlussfolgerungen der Arbeit — dass Modelle überall effektiv schließen, aber mit verbleibenden Unterschieden bei Kosten und Genauigkeit — geben auch Entwicklungsteams konkrete Hinweise. Die Optimierung der Inferenzkosten für Sprachen, die derzeit zurückliegen, könnte der nächste Schritt hin zu einem wirklich gleichwertigen mehrsprachigen Reasoning sein.

Hervorzuheben ist auch die methodische Botschaft der Arbeit. Indem sie zeigt, dass ein kompakter Satz von nur 25 sorgfältig ausgewählten Fragen, verteilt auf 43 Sprachen, aussagekräftige Erkenntnisse liefern kann, legt mmPISA-bench nahe, dass ein guter Benchmark nicht groß sein muss, um nützlich zu sein. Die Stützung auf die anerkannte OECD-PISA-Quelle stärkt zusätzlich die Glaubwürdigkeit der Fragen, da diese bereits darauf ausgelegt sind, echtes Reasoning beim Menschen zu messen.

arXiv:2606.07069: mmPISA-bench — schließen LLMs in 43 Sprachen gleich gut?

Was ist mmPISA-bench und woher stammt er?

Schließen Modelle in allen Sprachen gleich gut?

Sind maschinelle Übersetzungen von ausreichender Qualität?

Warum ist dieser Benchmark relevant?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten