Multi-LCB: LiveCodeBench in 12 Sprachen, 24 Modelle

Multi-LCB ist eine Erweiterung des LiveCodeBench-Benchmarks von Python auf 12 Programmiersprachen, beschrieben in der Studie arXiv:2606.20517 und akzeptiert auf der ICLR 2026. Durch Tests an 24 großen Sprachmodellen decken die Autoren signifikantes Python-Overfitting und sprachspezifische Datenkontamination auf und legen die Grenzen mehrsprachiger Codegenerierung in heutigen Modellen offen.

Die neue Studie arXiv:2606.20517 stellt Multi-LCB vor, eine Erweiterung des populären LiveCodeBench-Benchmarks von Python auf 12 Programmiersprachen. LiveCodeBench misst die Fähigkeit großer Sprachmodelle, korrekten Code für Aufgaben zu schreiben, und die bisherige Fokussierung auf Python ließ die Frage offen, wie gut Modelle andere Sprachen wirklich verstehen. Die Studie wurde auf der ICLR 2026, einer der führenden Konferenzen für maschinelles Lernen, akzeptiert.

Was entdeckt wurde

Beim Testen von 24 großen Sprachmodellen identifizierten die Autoren zwei Probleme. Das erste ist signifikantes Python-Overfitting — Modelle sind in Python deutlich erfolgreicher als in anderen Sprachen, was darauf hindeutet, dass sie an die Trainingsverteilung angepasst sind und nicht an ein allgemeines Programmierverstehen. Das zweite ist sprachspezifische Datenkontamination, bei der bestimmte Testaufgaben während des Trainings wahrscheinlich bereits gesehen wurden.

Warum Unterschiede zwischen Sprachen wichtig sind

Datenkontamination bedeutet, dass Benchmark-Ergebnisse aufgebläht sind, weil das Modell Lösungen „auswendig lernt” statt sie herzuleiten. Im Gegensatz zu einsprachigen Tests, die diesen Unterschied verbergen, legt Multi-LCB ihn durch den Vergleich der Leistung über 12 Sprachen offen. Die praktische Konsequenz: Eine ausschließlich an Python gemessene Modellbewertung überschätzt die tatsächliche Fähigkeit zur Codegenerierung in Sprachen wie Rust, Go oder Kotlin.

Bedeutung für die Tool-Entwicklung

Der Befund ist relevant für Entwicklungsteams, die sich auf KI-Assistenten außerhalb des Python-Ökosystems verlassen. Multi-LCB bietet ein faireres, mehrsprachiges Maß und ist eine offene Ressource für künftige Evaluierungen — und gibt Modellherstellern ein klareres Signal, wo das Training auf weniger verbreiteten Sprachen verbessert werden muss.

Häufig gestellte Fragen

Was ist Multi-LCB?

Multi-LCB ist eine Erweiterung des LiveCodeBench-Benchmarks von Python auf 12 Programmiersprachen zur Messung mehrsprachiger Codegenerierung in großen Sprachmodellen.

Wie viele Modelle wurden getestet?

Die Autoren testeten 24 große Sprachmodelle und entdeckten signifikantes Python-Overfitting sowie sprachspezifische Datenkontamination.

Wo wurde die Studie veröffentlicht?

Die Studie arXiv:2606.20517 wurde auf der ICLR 2026 akzeptiert.

arXiv:2606.20517: Multi-LCB erweitert LiveCodeBench auf 12 Programmiersprachen und deckt Python-Overfitting bei 24 Modellen auf

Was entdeckt wurde

Warum Unterschiede zwischen Sprachen wichtig sind

Bedeutung für die Tool-Entwicklung

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten